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设计 具有 高 性 能 微 处 理 器 的 现代 计算 机 体系 结构 ， 能 够 极 大 地 提高 计算 机 在 性 能 方面 的 潜在 优 
势 。 然 而 其 高 度 的 复杂 性 使 得 产生 有 效 代码 和 实现 其 全 部 优势 变 得 愈加 困难 。 这 本 出 自 两 位 学 术 权 
威 的 具有 里 程 碑 意义 的 教科 书 ， 重 点 阐述 了 编译 器 对 于 解决 这 个 至 关 重要 问题 所 起 到 的 关键 作用 。 

数据 依赖 是 在 高 性 能 微 处 理 器 和 并 行 体系 结 构 上 优化 程序 的 基本 编译 器 分 析 工 具 。 它 能 使 所 编 
写 的 编译 器 自动 地 将 简单 的 串 行程 序 转换 成 具有 现代 体系 结构 特征 的 程序 。 数 据 依赖 支 持 许多 变换 
策略 ， 也 应 用 于 一 些 重要 的 优化 问题 ， 本 书 对 此 做 了 全 面 介 绍 ， 并 对 基于 数据 依赖 的 编译 器 优化 的 
重要 性 和 广泛 应 用 性 进行 了 论证 ， 给 出 了 理解 和 实现 它们 所 需要 的 基础 ， 同 时 还 为 手工 转换 程序 提 
供 了 详细 说 明 。 

书 中 介绍 的 方法 是 基于 过 去 二 十 多 年 的 研究 成 果 ， 取 材 于 在 美国 Rice 大 学 的 研究 原型 和 几 个 有 
关 的 商业 系统 中 实现 的 策略 。 致 力 于 现代 计算 机 体系 结构 设计 和 优化 编译 器 的 研究 人 员 、 业 界 专 家 
Ee PRH. 


本 书 特点 : 

e 提供 一 种 简单 实用 的 算法 和 方法 的 指南 ， 在 高 性 能 微 处 理 器 和 并 行 系统 中 是 最 有 效 的 

@ 用 处 理 过 的 例子 示范 每 个 变 

© 用 实例 分 析 编译 器 如 何 实现 每 一 章 中 描述 的 理论 和 实践 

© 介绍 存储 层次 结构 问题 的 最 完善 的 处 理 方法 

e 全 书 用 依赖 图 来 阐明 排序 关系 

e 涉及 各 种 语言 ， 包 括 Fortran 77、C、 硬 件 定义 语言 、Fortran 90 和 High Performance Fortran 
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本 书 介绍 对 现代 体系 结构 的 编译 器 进行 优化 的 方法 ， 理 论 基础 是 基于 循环 依赖 的 。 
分 析 基 于 依赖 的 变换 的 正确 性 论述 和 依赖 测试 的 详细 过 程 。 剖 析 怎 样 扩展 依赖 去 处 理 循 
环 僚 套 中 的 控制 流 以 及 跨越 整个 程序 的 过 程 。 本 书 还 讨论 怎样 能 用 依赖 来 回答 现代 计算 
机 系统 编译 中 的 众多 重要 问题 ， 包 括 支持 不 同类 型 体系 结构 (例如 ， 向 量 、 多 处 理 器 、 
超标 量 ) 的 并 行 化 ， 存 储 层 次 结构 的 编译 器 管理 ， 带 指令 级 并 行 性 的 机 器 的 指令 调度 。 
最 后 ， 介 绍 一 些 不 大 为 人 熟知 的 应 用 ， 如 硬件 设计 、 数 组 语言 实现 以 及 消息 传递 系统 的 
编译 。 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 硅 出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧 密 地 结合 ， 计 算 机 
学 科 中 的 许多 秦山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科 学 著作 ,不仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 具有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 | 

UE, ESR BEKED. 我国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 又 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 、 从 业 人 员 较 少 的 现状 下 ， 美 国 等 发 达 国家 
在 其 计算 机 科学 发 展 的 几 十 年 间 积淀 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国 
外 优秀 计算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 
设 真正 的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 图 文 信息 有 限 公司 较 旱 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 
EEA AR LEB ARE TRE. BERRA LL. AILEY, RNS 
Prentice Hall, Addison-Wesley. McGraw-Hill. Morgan Kaufmann 等 世界 著名 出 版 公司 建立 了 
良好 的 合作 关系 ， 从 它们 更 有 的 数 百 种 教材 中 杜 选 出 Tanenbaum、Stroustrup Kernighan, 
Jim Gray 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 废 藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 从 书 ” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提供 了 中 
肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ; 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专 诚 为 其 书 的 中 译本 作 序 。 志 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 百 个 
品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 ， 为 
进一步 推广 与 发 展 打下 了 坚实 的 基础 。 

随 着 学 科 建 设 的 初步 完善 和 教材 改革 的 逐渐 深化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 
用 都 步 入 一 个 新 的 阶段 。 为 此 ， 华 章 公司 将 加 大 引进 教材 的 力度 ， 在 “华章 教育 ”的 总 规划 
之 下 出 版 三 个 系列 的 计算 机 教材 : 除 “ 计 算 机 科学 丛书 ”之 外 ， 对 影印 版 的 教材 ， 则 单独 开 
辟 出 “经 典 原 版 书库 ”; 同时 ， 引 进 全 美 通行 的 教学 辅导 书 “Schaum's Outlines” AWA 
“全 美 经 典 学 习 指 导 系 列 "”。 为 了 保证 这 三 套 丛 书 的 权威 性 ， 同 时 也 为 了 更 好 地 为 学 校 和 老师 
们 服务 ， 华 章 公 司 聘 请 了 中 国 科 学 院 、 北 京 大 学 、 清 华 大 学 、 国 防 科技 大 学 、 复 旦 大 学 、 上 
海 交 通 大 学 、 南 京 大 学 、 浙 江 大 学 、 中 国 科技 大 学 、 了 哈尔滨 工业 大 学 、 西 安 交 通 大 学 、 中 国 
人 民 大 学 、 北 京 航 空 航天 大 学 、 北 京 邮电 大 学 、 中 山大 学 、 解 放 军 理工 大 学 、 郑 州 大 学 、 湖 
北 工学 院 、 中 国 国家 信息 安全 测评 认证 中 心 等 国内 重点 大 学 和 科研 机 构 在 计算 机 的 各 个 领域 
的 著名 学 者 组 成 “专家 指导 委员 会 "， 为 我 们 提供 选 题 意见 和 出 版 监督 。 

这 三 套 从 书 是 响应 教育 部 提出 的 使 用 外 版 教材 的 号 召 ， 为 国内 高 校 的 计算 机 及 相关 专业 
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的 教学 度 身 订 造 的 。 其 中 许多 教材 均 已 为 M. I. T.、Stanford、U.C. Berkeley, C.M. U. 等 世界 
名 牌 大 学 所 采用 。 不 仅 涵 盖 了 程序 设计 、 数 据 结 构 、 操 作 系 统 、 计 算 机 体系 结构 、 数 据 库 、 
编译 原理 、 软 件 工程 、 图 形 学 、 通 信 与 网 络 、 离 散 数学 等 国内 大 学 计算 机 专业 普遍 开设 的 核 
心 课程 ， 而 且 各 具 特 色 一 一 有 的 出 自 语 言 设 计 者 之 手 、 有 的 历经 30 年 而 不 误 、 有 的 已 被 全 世 
界 的 几 百 所 高 校 采用 。 在 这 些 圆 熟 通 博 的 名 师 大 作 的 指引 之 下 ， 读 者 必 将 在 计算 机 科学 的 宫 
RH ee mAs. 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 ， 但 我 们 的 目标 是 尽善尽美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 
的 重要 帮助 。 教 材 的 出 版 只 是 我 们 的 后 续 服务 的 起 点 。 华 章 公 司 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : i 


电子 邮件 : hzedu@hzbook.com 

联系 电话 : (010) 68995264 

联系 地 址 : 北京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 





专家 指导 委员 会 


( 按 姓 氏 笔画 顺序 ) 


LFA x 再 冯 博 琴 史 忠 植 史 美 林 
石 教 英 3 建 和 孙 玉 芳 吴 世 起 KM 
张 立 昂 FER Æp R 李 建 中 杨 冬青 


ee RARE 

周 立 柱 BRR ARE ibt Bae 
范 明 KAR Abk BRR 
REL OARS AZ 程 如 BH 
wee RER AR 





序 


Randy Allen 和 Ken Kennedy 编 写 的 “现代 体系 结构 的 优化 编译 器 ”一 书 是 并 行 优化 编译 
技术 领域 中 一 部 权威 性 的 著作 。 有 幸 由 乔 如 良 教授 和 张 光 庆 教 授 将 全 书 译 成 中 文 ， 无 疑 对 国 
内 这 一 领域 的 教学 、 科 研 和 工程 的 发 展 有 着 深远 意义 。 

编译 优化 理论 和 技术 是 决定 现代 高 性 能 计算 机 发 展 的 十 分 关键 的 技术 领域 之 一 。 优 化 编 
译 技 术 的 研究 发 展 是 和 先进 计算 机 结构 一 一 从 微 处 理 器 到 超级 计算 机 一 一 紧密 相关 联 的 。 纵 观 
优化 编译 技术 最 为 超前 的 美国 ， 各 大 学 和 科研 机 构 中 对 这 一 领域 的 研究 多 是 以 电脑 主流 制造 
业 的 密切 支持 与 合作 研究 为 背景 的 。 先 进 计算 机 体系 结构 和 编译 优化 技术 真 可 说 是 休戚 与 共 、 
缺 一 不 可 。 : . 

本 书 的 两 位 作者 是 长 期 从 事 优化 编译 技术 研究 的 知名 专家 。 特 别 是 K. Kennedy 教 授 更 是 
学 术 界 公认 的 泰斗 。 肯 尼 迪 教授 领导 主持 的 一 系列 优化 编译 课题 ， 既 县 有 杰出 的 技术 水 平 ， 
又 有 着 重大 的 学 术 影 响 。 早 在 20 世 纪 70 年 代 末 期 ， 肯尼迪 的 研究 工作 对 自动 向 量化 编译 技术 
的 英 菇 和 发 展 起 过 重大 作用 。80 年 代 ， 肯 尼 迪 和 他 在 RICE 大 学 的 研究 室 对 自动 并 行 编译 技术 
的 贡献 更 为 卓著 。 例 如 ， 他 们 在 过 程 间 优化 的 研究 成 果 首 创 被 商用 编译 器 成 功 采 用 的 先例 。 

基于 他 在 学 术 上 的 成 就 和 对 计算 机 界 的 卓越 贡献 ， 肯 尼 迪 教授 先后 被 选 为 美国 国家 工程 
学 院 (National Academy of Engineering) 院士 ， 美 国 高 科技 协会 (American Association for 
Advanced of Science) 院士 ，IEEE 院 士 和 美国 计算 机 学 会 (ACM ) 院士 。 肯 尼 迪 教授 在 其 三 
十 多 年 的 学 术 历 程 中 ， 亲 自 指导 了 三 十 多 名 博士 生 。 其 中 许多 都 是 优化 编译 技术 领域 的 精英 ， 
大 多 在 知名 大 学 任教 或 成 为 工业 界 的 骨干 。 这 本 巨著 中 的 许多 内 容 正 是 作者 和 他 的 学 生 们 多 
年 经 验 的 结晶 。1997 年 ， 肯 尼 迪 被 美国 总 统 任命 为 HPCC 委 员 会 两 主席 之 一 。 

张 、 乔 二 教授 是 国内 优化 编译 方面 的 资深 专家 和 学 术 带 头 人 。 他 们 主持 领导 的 中 国 科 学 
院 计 算 所 先进 编译 技术 试验 宝 曾 承担 多 项 这 一 领域 中 重大 长 期 研究 项 目 ， 成 果 硕 硕 。 近 年 来 
承担 的 Motorola 和 Intel 等 大 公司 委托 的 优化 编译 技术 上 的 工程 项 目 在 国际 上 也 颇具 影响 ,由 张 、 
乔 二 教授 和 冯 晓 兵 、 吴 承 勇 、 连 瑞 琦 、 刘 易 主 持 本 书 的 翻译 本 出 版 是 中 国 计 算 机 学 术 界 的 一 
件 大 喜事 ， 和 值得 我 们 上 庆贺。 

我 有 幸 与 Kennedy 教 授 及 张 、 乔 、 码 、 吴 等 译 者 相识 多 年 ， 这 次 能 为 这 本 书 的 中 译本 做 序 
是 我 的 荣幸 。 和 希望 我 的 密 宣 数 言 能 有 助 于 本 书 在 国内 计算 机 界 广 为 推 广 。 


` o 
美国 特 拉 华 大 学 (University of Delaware) 电子 与 计算 机 工程 系 终身 教授 
特 拉 华 生物 研究 所 生物 信息 中 心 主任 


SUX excellence 中 心 主任 
CAPSEL 实 验 室 主任 和 中 国 科学 院 计 算 技 术 研 究 所 客座 教授 及 联合 实验 室 主任 








Note To Chinese Readers 


We are delighted that our book “Optimizing Compilers for Modern Architectures” will now 
be available to Chinese readers in their native language. This book was intended to serve several 
purposes. First we wanted it to be a good text for advanced students of compiler construction for 
high performance computers. Second, we wanted to produce a useful reference for professional 
compiler writers. Third, we wanted the material to be of value to scientists and engineers who 
develop application for modern high performance computers by providing an understanding of 
how to transform programs to achieve the very best performance on these machines. 

We would like to thank the researchers at Institute of Computing Technology, Chinese 
Academy of Sciences who have done such a remarkable job of translation. Not only have they 
made this edition possible but, with their help, we have been able to correct many of the errors in 
the original English language edition. We sincerely hope that you, our Chinese readers, find the 


result of this effort both useful and interesting. 


Randy Allen and Ken Kennedy 
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致 中 国 读者 


对 于 我 们 的 著作 《Optimizing Compilers for Modern Architectures》 中 文 版 的 即将 面世 ， 
我 们 感到 由 囊 的 高 兴 。 本 书 可 以 满足 不 同 读者 的 需要 。 首 先 ， 我 们 希望 它 能 成 为 面向 大 学 高 
年 级 学 生 的 关于 高 性 能 计算 机 编译 器 构造 的 优秀 的 教科 书 。 其 次 ， 我 们 希望 它 能 作为 专业 编 
译 器 开发 人 员 的 有 用 的 参考 书 。 最 后 ， 对 于 那些 为 现代 高 性 能 计算 机 开发 应 用 软件 的 科学 家 
和 工程 师 ， 我 们 希望 本 书 的 内 容 有 助 于 他 们 了 解 应 该 如 何 变 换 程序 从 而 能 够 在 现代 计算 机 上 
获得 最 佳 的 性 能 。 

我 们 要 感谢 中 国 科学 院 计算 技术 研究 所 的 同行 们 ， 他 们 不 仅 出 色 地 完成 了 本 书 中 文 版 的 
翻译 工作 ， 并 且 帮 助 我 们 更 正 了 英文 版 中 的 许多 错误 。 在 此 真诚 地 希望 中 国 读者 发 现 这 是 一 
本 非常 有 价值 的 书 。 


Randy Allen 和 Ken Kennedy 





译 者 序 

Intel 公 司 David Kuck 院 士 在 评论 Ken Kennedy 和 Randy Allen 的 新 书 “Optimizing Compilers 
for Modern Architectures: A Dependence-Based Approach” 上 时， 这 样 写 道 : “编译 程序 是 计算 
机 科学 与 技术 的 皇后 。 编 译 器 一 直 是 应 用 与 系统 之 间 的 桥梁 。 现 在 它们 不 仅 决定 应 在 新 的 硬 
件 中 实现 哪些 体系 结构 特色 ， 而 且说 明 对 软件 开发 者 而 言 ， 哪 些 新 的 语言 特色 将 是 有 效 的。” 

Kuck 院 士 和 Kennedy 教 授 都 是 并 行 优化 编译 理论 与 实践 方面 的 最 著名 学 者 。Kuck 将 编译 
程序 称 为 “计算 机 科学 与 技术 的 皇后 ”是 十 分 恰当 的 。 

自 1958 年 ALGOLS8 癌 世 后 ，20 世 纪 560 年 代 在 程序 设计 语言 理论 、 数 据 结构 、 算 法 设计 与 
分 析 、 可 计算 性 理论 等 方面 的 研究 ， 取 得 了 令 人 惊叹 的 硕果 ， 编 译 理 论 、 技 术 和 实验 起 了 很 
大 的 推动 作用 。 至 今 编 译 领域 中 仍 有 很 多 具有 挑战 性 的 问题 ， 吸 引 广大 计算 科学 与 技术 研究 
人 员 投 身 于 此 项 事业 。 

现代 计算 机 体系 结构 大 都 上 共有 各 种 粒度 的 并 行 机 制 和 分 层 存储 结构 ， 访 存 仍 是 当今 各 类 
计算 机 体系 结构 的 瓶颈 。 优 化 编译 器 的 主要 任务 可 以 说 是 : 扬 计 算 机 结构 之 长 一 控 据 程序 中 
的 并 行 性 ， 避 其 之 短 一 挖掘 程序 的 局 部 性 (重用 性 )， 实 施 有 效 的 寄存 器 分 配 和 Cache 管 理 。 
这 正 是 Kennedy 和 Allen 在 书 中 讲述 的 主要 内 容 。 第 5 章 〈 提 高 细 粒度 并 行 性 )， 第 6 章 〈 开 发 粗 
粒度 并 行 性 )， 第 8 章 (改进 寄存 器 的 使 用 )， 第 9 章 (管理 Cache) 和 第 10 章 (WE) 是 优化 的 
主要 手段 。 第 2、3、4 章 是 全 书 的 理论 基础 和 基本 的 程序 变换 方法 。 为 使 程序 分 析 和 优化 更 精 
确 和 有 效 ， 第 7 章 和 第 11 章 是 必须 的 ， 但 它们 增加 了 编译 器 的 实现 难度 。 最 后 三 章 可 以 看 成 是 
编译 技术 的 特定 应 用 。 . 

Kuck 院 土 在 他 的 评论 中 接着 写 道 : “作为 该 领域 的 创新 者 和 研发 者 ， 作 者 依据 丰富 的 经 验 
写 出 了 此 书 。 该 书 对 Cache 管 理 、 向 量化 、 并 行 化 等 优化 ， 做 了 非常 好 的 综合 。 论 题 涉及 到 现 
代 体系 结构 ， 这 些 题材 确实 可 以 应 用 于 从 台式 计算 机 到 世界 上 最 快 的 超级 计算 机 上 。 书 中 的 
例子 是 从 Fortran 中 抽取 出 来 的 ， 但 其 理论 可 以 应 用 到 许多 程序 设计 语言 上 。 我 认为 该 书 将 起 
到 极 好 的 教科 书 作用 ， 并 为 软件 开发 者 广泛 地 利用 。” 

正如 Kuck 院 士 所 说 ， 书 中 用 大 量 的 Fortran 例 子 说 明基 本 概念 、 理 论 、 方 法 和 优化 的 效果 ， 
使 全 书 通俗 易 懂 。 每 章 的 后 面 有 一 节 实 例 研 究 ， 介 绍 作者 在 编译 器 的 实践 中 的 真实 材料 ， 以 
及 有 关 策 略 有 效 性 的 实验 论据 。 最 后 还 有 若干 练习 题 。 这 些 材料 和 习题 无 论 是 对 学 生 ， 还 是 
对 学 术 界 、 工 业界 的 软件 开发 者 都 大 有 益处 。 这 里 软件 开发 者 不 仅 指 编译 器 的 设计 与 实现 者 ， 
还 包括 应 用 软件 开发 者 。 他 们 可 以 从 中 学 到 如 何 写 一 个 优化 程序 的 许多 概念 、 方 法 和 规范 ， 
特别 是 应 使 用 程序 设计 语言 中 那些 有 效 的 语言 成 分 ， 捉 弃 那 些 使 程序 可 读 性 、 可 维护 性 差 和 


难以 优化 的 语言 成 分 。 
我 们 希望 此 书 的 翻译 出 版 ， 能 对 我 国 高 校 的 软件 教学 与 科研 有 所 帮助 。 这 是 我 们 翻译 此 
BHW 


本 书 的 翻译 组 织 工 作 由 张 兆 庆 研究 员 全 面 负责 。 作 者 介绍 、 前 言 、 前 四 章 和 附录 由 张 兆 
庆 和 乔 如 良 研 究 员 译 校 ， 第 5、6 章 由 刘 肠 博士 翻译 ， 第 7、11、12 章 由 连 瑞 琦 副 研究 员 翻 译 ， 
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#8, OH RAB RI ARIE, 9. 13, HRA RAE. FAA MK EA 
限 ， 译 文中 难免 有 不 妥 之 处 ， 敬 请 读者 批评 指正 。 

感谢 机 械 工业 出 版 社 组 织 翻 译 这 部 巨著 ， 感 谢 李 伯 民 老师 仔细 阅读 译 稿 ， 提 出 许多 宝贵 
意见 ， 并 对 译 稿 做 了 大 量 编辑 加 工 。 


译 者 
2003 年 11 月 25 日 
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现代 体系 结构 的 编译 器 设计 

影响 人 们 对 世界 理解 的 主要 方面 之 一 是 描述 它 的 方法 ， 人 们 往往 借助 于 语言 中 的 概念 表 
述 来 传达 他 们 的 理解 。 在 使 用 计算 机 语言 时 这 更 为 明显 。 计 算 机 科学 家 使 用 的 语言 影响 着 问 
题 描述 到 最 终 实现 的 算法 方法 。LISP 程 序 员 解 决 问题 的 方法 与 BM 370 汇 编程 序 员 的 方法 就 
很 不 相同 。 

可 见 语言 在 应 用 设计 中 具有 强烈 影响 ， 而 高 级 语言 具有 内 在 的 高 效 优点 ， 语 言 研究 的 主 
要 目标 是 开发 人 类 更 容易 理解 的 计算 机 语言 。 尽 管 语言 研究 获得 的 成 果 使 之 更 容易 使 用 ,但 
是 在 产品 应 用 的 开发 中 未 被 广泛 采用 。 主 要 原因 很 简单 : 有 效 性 一 一 从 这 些 语言 写 的 代码 产 
生 的 可 执行 程序 对 于 产品 使 用 太 慢 。 而 且 ， 如 果 一 个 问题 描述 超出 了 计算 机 本 机 指令 ， 将 这 
些 描述 映射 到 指令 集 则 变 得 更 加 困难 。 

如 果 我 们 曾经 有 过 这 样 的 实际 语言 ， 先 进 编译 器 技术 将 成 为 克服 它们 国有 性 能 缺陷 的 基 
础 工具 。 换 名 话说， 编译 器 优化 是 使 用 高 级 语言 的 基本 保证 技术 。 数 据 依赖 是 基本 的 编译 器 
分 析 工 具 ， 用 来 优化 现代 机 器 体系 结构 上 的 程序 ， 因 为 它 能 使 编译 器 对 不 同 的 代码 段 是 否 访 
问 相同 的 或 不 同 的 存储 单元 进行 推断 。 这 样 可 以 用 它 来 确定 一 个 给 定 的 程序 是 否 可 以 并 行 化 ， 
或 者 可 以 更 加 频繁 地 重用 在 寄存 器 和 高 速 缓存 中 的 数据 。 至 今 初 级 编译 器 课程 中 很 少 讲授 依 
赖 分 析 。 这 样 ， 大 多 数 大 学 生计 算 机 科学 主 修 课 从 不 讲述 。 

本 书 的 一 个 主要 目标 是 集中 在 一 册 书 里 对 数据 依赖 作 广泛 的 介绍 ， 它 可 以 同样 由 从 业 人 
员 和 学 生 们 用 于 学 习 关 于 数据 依赖 及 其 对 重要 优化 问题 的 应 用 ， 如 并 行 化 和 编译 器 的 存储 分 
层 结构 管理 。 虽 然 在 20 世 纪 60 年 代 编译 器 早期 研究 人 员 就 提出 了 数据 依赖 ， 大 多 数 有 说 服 力 
的 依赖 应 用 是 在 使 用 循环 和 数组 的 情况 下 。 这 些 结构 本 质 上 是 重复 计算 ， 而 重复 计算 提供 了 
最 适宜 的 优化 场所 。 扩 充 依 赖 到 支持 数组 和 循环 是 本 书 的 关注 点 。 

这 本 著作 介绍 的 理论 基础 是 基于 循环 依赖 的 。 它 包括 基于 依赖 的 变换 的 正确 性 论述 和 依 
赖 测试 的 详细 过 程 。 说 明 怎 样 扩展 依赖 去 处 理 循 环 伐 套 中 的 控制 流 以 及 跨越 整个 程序 的 过 程 。 
本 书 也 讨论 怎样 能 用 依赖 来 回答 现代 计算 机 系统 编译 中 的 众多 重要 问题 ， 包 括 支 持 不 同类 型 
体系 结构 (PURI, 向量、 多 处 理 器 、 超 标量 ) 的 并 行 化 ， 存 储 层次 结构 的 编译 器 管理 ， 带 指 
令 级 并 行 性 的 机 器 的 指令 调度 。 最 后 ， 介 绍 一 些 不 大 为 人 们 熟知 的 应 用 ， 包 括 硬件 设计 、 数 
组 语言 的 实现 以 及 消息 传递 系统 的 编译 。 

除了 基本 理论 ， 本 书 还 应 用 依赖 处 理 真实 编译 器 优化 中 的 实际 问题 。 通 过 介绍 一 些 有 效 
的 实现 算法 ， 以 及 我 们 从 结合 研究 和 商用 实现 的 经 验 中 获得 的 认识 ， 达 到 上 述 目 的 。 只 要 有 
可 能 我 们 就 用 例子 来 传授 这 些 认识 ， 经 常用 图 形 化 的 依赖 关系 描述 来 传授 对 讨论 中 的 问题 的 
直观 理解 。 本 书 介绍 的 大 多 数 算法 是 基于 我 们 工作 中 已 经 构造 的 实现 。 设 计 的 这 些 算法 已 达 
到 很 高 的 精度 ， 不 需要 再 花 运行 时 间 就 可 以 将 它们 放 在 编译 器 中 实际 使 用 。 最 后 ， 每 章 包含 
一 些 材 料 ， 按 照 我 们 自己 的 经 验 ， 讨 论 我 们 介绍 的 和 已 经 付 诸 实 现 的 东西 之 间 的 关系 ， 包 括 
优点 和 缺点 。 
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由 于 本 书 将 理论 与 实践 融合 一 体 ， 既 适合 作为 学 校 的 教科 书 ， 又 可 以 作为 产业 界 从 业 人 
员 的 参考 书 。 我 们 仅 假定 读者 了 解 大 学 的 初级 编译 器 课程 ， 以 及 具有 Hennessy 和 Patterson 的 
《Computer Organization and Design: The Hardware/Software Interface》 水 平 的 机 器 设计 原理 。 
过 去 儿 年 ， 我 们 在 Rice 大 学 开设 了 一 门 一 学 期 的 研究 生 课 程 ， 内 容 涵 盖 本 书 的 所 有 材料 。 然 
而 我 们 相信 这 些 材料 也 适宜 包含 在 一 门 大 学 高 年 级 课程 中 。 本 书 是 按 指导 风格 写成 的 ， 使 读 
者 能 获得 足够 的 见解 ， 容 易 去 理解 介绍 的 概念 。 另 外 ,， 书 中 包含 为 了 帮助 学 生 更 清楚 地 思考 
那些 基本 问题 的 讨论 和 设计 的 习题 。 

为 了 符合 商用 编译 器 作者 的 需要 ， 书 中 包含 对 依赖 测试 和 变换 算法 的 详细 介绍 。 这 样 做 
的 主要 理由 是 可 以 让 实际 编译 器 开发 者 避免 过 去 20 多 年 我 们 自己 在 实现 中 过 到 过 的 陷阱 。 例 
如 ， 第 3 章 中 的 依赖 测试 的 细节 如 果 从 首要 的 原理 推 民 ， 那 么 往往 很 难 精确 地 得 到 正确 结果 。 
因此 在 可 能 时 ， 我 们 尽力 介绍 完整 的 算法 。 使 用 书 中 包含 的 材料 ， 我 们 已 帮助 一 些 公司 在 商 
业 产 品 中 实现 依赖 测试 、 向 量化 和 并 行 化 。 我 们 确信 这 些 策略 在 实践 中 是 有 效 的 。 

本 书 是 在 Rice 大 学 一 个 为 期 20 年 的 研究 项 目的 产物 ， 该 项 目 为 向 量 和 并 行 计算 机 系统 研 
发 基础 的 编译 技术 。 在 1979 年 开始 这 个 研究 项 目 时 ， 我 们 相信 源 - 源 翻译 器 对 向 量 机 的 支持 
才 是 必要 的 ， 而 不 是 基于 依赖 的 编译 器 。 理 由 是 基于 实验 : 依赖 实现 需要 的 编译 时 间 对 实用 
来 说 太 长 了 ， 并 且 它 们 的 输出 通常 可 以 通过 简单 的 检查 加 以 改善 。 我 们 认为 在 产品 编译 器 中 
太 长 的 编译 时 间 需 求 是 不 能 容忍 的 ， 但 对 只 做 一 次 的 源源 翻译 器 来 说 是 很 好 的 。 此 外 ， 可 以 
让 有 经 验 的 程序 员 调 整 源 - 源 翻译 器 的 输出 ， 使 之 达到 更 佳 的 性 能 。 我 们 研究 的 最 令 人 满意 的 
结果 之 一 ， 在 于 发 现 我 们 最 初 的 设想 何等 错误 一 一 依赖 不 仅 对 产品 编译 器 是 有 效 的 ， 而 且 比 
起 我 们 最 初 的 猜想 ， 它 是 更 加 强 有 力 的 工具 和 可 用 的 理论 。 任 何 现代 优化 编译 器 已 将 依赖 作 
为 基本 构件 ,并 且 优 化 的 结果 不 仅 应 用 于 向 量 机 (它们 做 得 极为 出 色 )， 而 且 也 应 用 于 标量 机 ， 
甚至 应 用 到 硬件 设计 中 。 

因为 机 器 设计 的 不 断 进步 ， 人 们 对 几 年 前 看 起 来 似乎 过 时 的 论题 (例如 向 量化 )， 现 在 重 
新 发 现 了 它们 的 重要 性 。 向 量化 方法 对 改善 VLIW 和 超标 量 机 的 性 能 还 是 有 用 的 ， 办 法 是 在 最 
内 层 循环 提供 额外 的 指令 级 并 行 性 。 然 而 ， 由 于 更 加 重要 的 原因 这 本 书 是 适时 的 。 因 为 处 理 
器 和 存储 器 性 能 之 间 的 距离 增加 了 ， 在 现代 体系 结构 上 必须 实施 的 多 数 优化 与 存储 访问 有 关 。 
依赖 提供 一 个 关于 存储 访问 的 合理 框架 ， 它 将 继续 增加 有 用 性 。 

虽然 我 们 打算 覆盖 许多 研究 人 员 的 重要 工作 ， 但 是 我 们 自然 将 注意 力 集 中 在 过 去 二 十 
几 年 里 作者 和 同事 们 于 Rice 大 学 做 过 的 工作 上 。 和 总 之 ,我 们 的 目标 是 将 我 们 从 该 领域 的 经 
历 中 获得 的 综合 知识 付 印 。 因 此 不 应 该 将 本 书 看 成 是 文献 的 详尽 的 综述 ， 而 是 开发 基于 依 
赖 的 编译 器 的 实用 指南 。 为 表达 清楚 :有 时 不 得 不 牺牲 一 些 技术 细节 。 我 们 的 总 上 且 标 是 给 
读者 充分 的 直观 知识 ， 使 其 在 编译 技术 这 个 引人入胜 的 领域 中 能 有 效 地 工作 。 
内 容 概述 | 

本 书 由 14 章 组 成 ， 它 们 的 内 容 在 下 面 各 段 中 概述 。 材 料 的 核心 包含 在 前 9 章 中 ; 余下 各 章 
集中 于 基本 材料 的 扩充 和 在 不 同 的 问题 领域 的 应 用 。 

第 1 章 ， 高 性 能 体系 结构 对 编译 器 的 挑战 ， 是 对 现代 计算 机 体系 结构 所 做 的 综述 和 分 类 ， 
并 讨论 对 每 一 类 体系 结构 提出 的 主要 编译 挑战 。 重 要 的 主题 包括 流水 线 并 行 性 ， 向 量 指 令 ， 
异步 处 理 器 并 行 性 ， 超 标量 指令 和 VLIW 指 令 ， 以 及 存储 层次 结构 管理 。 引 入 依赖 概念 作为 保 
证 并 行 性 安全 使 用 的 机 制 。 





XI 


第 2 章 ， 依 赖 : 理论 与 实践 ， 讨 论 依赖 的 基本 概念 ， 以 及 它 的 若干 性 质 ， 包 括 方向 向 量 和 
距离 向 量 。 主 要 的 目标 是 证 明 一 些 基 本 定理 ， 它 们 确立 维持 依赖 的 变换 的 正确 性 ， 特 别 是 在 
循环 候 套 中 。 这 一 章 以 一 个 样 例 向 量化 算法 结束 ， 算 法 说 明 依赖 的 有 用 性 ， 并 用 作 后 面 讨论 
向 量化 和 并 行 化 的 模型 。 

第 3 章 ， 依赖 测试 ， 提 供 对 引用 偶 之 间 测 试 依赖 的 系统 介绍 。 包 含 对 下 标 分 类 、 单 下 标 测 
试 和 耦合 下 标 组 中 依赖 测试 的 讨论 。 这 部 分 材料 强调 在 可 能 的 地 方 彻 底 地 消除 一 个 依赖 ， 并 
得 到 尽 可 能 接近 的 依赖 性 质 ， 如 方向 向 量 。 

第 4 章 ， 初 等 变换 ， 覆 盖 精 确 依赖 分 析 的 基本 变换 ， 包 括 循环 正规 化 ， 标 量 数 据 流 分 析 ， 
表达 式 传播 和 替换 ， 归 纳 变量 替换 ， 以 及 标量 重 命名 。 

第 5 章 ， 提 高 细 柱 度 并 行 性 ， 集 中 于 需要 支持 向 量 指令 和 VLIW 或 超标 量 处 理 器 的 内 循环 
并 行 性 。 这 一 章 探 讨 对 第 2 章 中 介绍 的 分 层 并 行 代码 生成 过 程 的 变形 和 扩展 。 特 别 将 重点 放 在 
循环 交换 、 标 量 扩展 、 结 点 分 裂 ， 数 组 重 命名 和 向 量化 过 程 中 的 循环 倾斜 。 

第 6 章 ， 开 发 粗 粒 度 并 行 性 ， 探 讨 对 称 多 处 理 器 的 代码 生成 策略 ， 在 一 致 共享 存储 系统 中 
利用 异步 并 行 性 。 这 种 机 器 的 主要 问题 是 寻找 充足 大 并 行 性 粒度 ， 以 补偿 较 高 的 任务 启动 和 
同步 的 代价 。 这 个 代价 是 必须 交换 一 个 并 行 循 环 到 最 外 层 合法 位 置 ， 而 不 是 向 量化 需要 的 最 
内 层 位 置 。 这 一 章 探 讨 循环 交换 的 使 用 、 数 组 私有 化 、 循 环 对 齐 和 代码 复制 、 循 环 倾斜 和 各 
种 索引 集 分 裂 策略 ， 以 达到 在 原始 程序 中 寻找 可 用 并 行 性 的 目的 。 

第 7 章 ， 处 理 控制 流 ， 探 讨 在 程序 的 分 析 和 变换 中 由 分 支 引入 的 复杂 性 。 它 深入 地 讨论 两 

个 重要 的 策略 。 第 一 个 策略 是 这 转 换 ， 这 是 一 种 通过 将 控制 流 分 支 下 的 所 有 语句 转换 成 条 件 赋 
值 语 句 来 消除 控制 流 的 机 制 。 为 支持 向 量化 引入 的 it 转换 ， 是 重 写 条 件 语 句 为 向 量 语句 所 需要 
的 。 第 二 个 策略 是 使 用 控制 依赖 边 ， 它 们 是 从 条 件 语 名 到 执行 时 依赖 于 它们 的 那些 语句 的 边 。 
这 一 章 证 明 如 果 数 据 依 赖 和 控制 依赖 都 得 到 遵从 ， 那 么 程序 的 含义 便 得 到 维持 。 最 后 ， 该 章 
说 明 控制 依赖 如 何 适 应 标准 的 变换 算法 ， 包 括 并 行 代码 生成 算法 。 
”第 8 章 ， 改 进 寄存 器 的 使 用 ， 说 明 依赖 (正确 地 讲 扩展 到 包含 输入 依赖 ) 是 怎样 的 一 种 有 
效 方法 ， 用 来 探测 处 理 器 的 寄存 器 中 数据 重用 的 可 能 性 。 这 一 章 介绍 标量 替换 ， 本 质 上 它 是 
将 下 标 变量 引用 赋 给 一 个 寄存 器 。 另 外 还 论述 改善 各 层 重用 的 变换 ， 包 括 展开 和 压 紧 、 循 环 
交换 、 循 环 对 齐 和 循环 合并 。 

第 9 章 ， 管 理 高 速 缓存 ， 越 过 简单 的 数据 重用 ， 探 讨 改善 带 有 高 速 缓存 存储 层次 结构 机 器 
性 能 的 变换 。 虽 然 大 多 数 改 善 寄存 器 重用 的 变换 也 能 增强 高 速 缓存 的 重用 .但 高 速 缓存 存 储 
器 更 加 复杂 ， 因 为 它们 比 典 型 的 寄存 器 集合 要 大 许多 ,并且 是 在 若干 个 字 的 块 中 处 理 数据 。 
这 些 不 同 为 一 些 变换 提供 了 机 会 ， 如 分 段 循环 伐 套 使 它 在 适合 装 在 高 速 缓存 的 数据 集 上 进行 
选 代 ， 以 及 在 内 循环 中 引起 跨 距 为 1 的 访问 的 循环 交换 。 这 一 章 还 探讨 软件 预 取 一 一 使 用 显 式 
和 令 ， 将 数据 块 在 需要 用 它们 之 前 从 存储 器 移 到 高 速 缓存 中 。 

第 10 章 ， 调 度 ， 论 述 几 种 基于 依赖 的 方法 ， 通 过 编译 时 指令 布置 来 改善 超标 量 机 器 和 
VLIW 机 器 的 性 能 。 主 题 包 括 表 调度 、 踪 迹 调 度 、 软 件 流水 线 和 向 量 操作 链接 。 

第 11 章 ， 过 程 间 分 析 和 优化 ， 讨 论 扩展 编译 器 分 析 (包括 依赖 分 析 ) 的 策略 到 整个 程序 。 
这 一 章 介绍 分 析 几 个 重要 的 过 程 间 问 题 的 算法 ， 包 括 副 作用 、 别 名 和 常数 传播 。 然 后 说 明 如 
何 和 将 副作用 分 析 扩展 到 数组 子 段 上 。 其 他 主题 包括 过 程 间 优 化 (如 内 联 替 换 和 过 程 克 隆 ) ， 以 
及 过 程 间 分 析 和 优化 的 管理 。 
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第 12 章 ，C 语 言 和 硬件 设计 中 的 依赖 ， 应 用 本 书 中 介绍 的 分 析 策 略 到 两 个 新 的 问题 领域 。 
第 一 个 领域 是 应 用 依赖 测试 和 程序 变换 优化 C 程 序 。 第 二 个 领域 是 将 依赖 应 用 到 硬件 设计 上 ， 
包括 加 速 设计 模拟 的 方法 和 从 高 层 抽象 规格 说 明 综合 低层 硬件 的 方法 。 

第 13 章 ， 编 译 数组 赋值 ， 其 中 的 材料 涵盖 的 方法 为 Fortran 90 中 数组 赋值 语句 在 标量 机 和 
具有 定 长 向 量 寄存 器 机 器 上 的 实现 。 主 要 主题 是 将 数组 赋值 语句 转换 成 不 需要 无 限制 的 临时 
存储 的 标量 循环 。 

最 后 一 章 ， 编 译 高 性 能 Fortran， 应 用 依赖 分 析 从 高 性 能 Fortran 生 成 有 效 的 消息 传递 代码 ， 
高 性 能 Fortran 是 Fortran 90 的 变 体 ， 它 包含 说 明 如 何在 一 可 伸缩 并 行 计算 机 的 存储 器 中 布局 数 
组 数据 的 设施 。 主 题 包括 根据 拥有 者 计算 规则 的 计算 划分 和 通信 生成 及 优化 。 

这 十 四 章 包 含 的 材料 ， 可 以 用 几 种 不 同 的 方法 组 织 成 多 个 课程 。 作 为 一 门 高 年 级 的 大 学 
生 课程 ， 第 2 章 至 第 7 章 提供 并 行 化 中 有 关 问 题 的 合理 的 完整 的 论述 。 作 为 集中 于 单 处 理 器 优 
化 的 课程 ， 可 以 跳 过 第 5 章 中 的 某 些 材料 (5.1 节 、5.2 节 和 5.7 ~ 5.9 节 除外 ， 这 几 节 涵盖 重要 的 
变换 )， 第 6 章 (6.2 节 和 6.3 节 除外 )， 以 利于 包含 第 8 章 和 第 9 章 。 另 一 方面 ， 熟 悉 并 行 化 的 读 
者 可 能 想 了 解 其 他 的 应 用 ， 包 括 存 储 层 次 结构 管理 ， 这 方面 的 内 容 集中 在 第 8 章 到 第 10 章 ， 以 
及 第 12 章 到 第 14 章 。 如 前 所 说 ， 我 们 已 成 功 地 在 Rice 大 学 开设 的 一 个 学 期 的 研究 生 课程 中 讲 
授 本 书 中 的 所 有 材料 。 

我 们 力求 使 本 书 成 为 自 含 的 ， 只 假设 读者 熟悉 编译 器 和 机 器 设计 的 基础 。 这 种 期 望 必须 
包含 第 4 章 中 关于 数据 流 分 析 (4.4 节 ) 的 某 些 材料 ， 它 们 可 能 会 包含 在 一 门 基础 编译 器 课程 
中 。 我 们 感觉 到 在 书 中 包含 这 些 材料 是 重要 的 ， 所 以 你 能 在 依赖 和 变换 理论 的 上 下 文中 看 到 
它们 。 我 们 希望 在 使 本 书 具 有 可 读 性 和 包含 针对 编译 课程 的 高 第 级 大 学 生 和 实际 编译 器 编写 
者 的 主题 上 已 获得 成 功 。 


每 章 的 结构 和 特色 

我 们 尽力 使 每 章 结构 一 致 。 每 章 包含 一 个 引言 ， 在 开始 论述 详细 的 技术 之 前 ， 提 供 主题 
的 概述 。 引 言 通常 用 例子 说 明 一 章 将 要 回答 的 问题 。 

技术 材料 按 指导 的 风格 介绍 ， 包 括 用 依赖 图 说 明 许多 例子 。 使 用 变换 “前 和 后 ”的 代码 

序列 描述 各 种 变换 。 我 们 介绍 程序 变换 的 完整 算法 ， 使 实践 者 根据 这 些 材 料 开发 一 个 编译 器 
的 实现 变 得 简单 明了 。 多 数 情 况 下 ， 这 些 算法 是 在 我 们 自己 的 研究 和 商用 系统 中 已 实现 的 直 
接 变 体 。 为 有 效 地 处 理 大 程序 ， 我 们 力求 在 这 些 实现 中 保证 算法 有 可 接受 的 渐进 的 复杂 度 。 
算法 是 用 直观 的 类 Algol 表 示 法 表示 的 ， 这 种 表示 法 对 规格 说 明 非 党 有用。 然而 ， 我 们 增加 了 
某 些 特殊 的 构造 ， 用 于 在 元 素 集合 上 的 返 代 (例如 ，for each 循 环 )， 这 有 助 于 我 们 回避 说 明 
集合 实现 的 细节 。 

每 章 的 末尾 是 一 个 小 结 ， 回 顾 这 一 章 炙 盖 的 要 点 。 随 后 是 实例 研究 ， 介 绍 我 们 在 真实 实 
现 中 的 材料 ， 以 及 有 关 策 略 有 效 性 的 实验 论据 。 这 里 ， 你 将 可 以 找到 有 关 产 品 编译 器 需要 的 
设计 折衷 处 理 方 案 的 材料 。 最 后 一 节 是 历史 评述 与 参考 文献 ， 回 顾 相关 的 文献 ， 讨 论 一 章 中 
介绍 的 概念 的 由 来 和 发 展 ， 具 体 参 考 文 献 的 引文 可 以 在 本 书 的 末尾 找到 。 

在 每 一 章 的 结尾 是 少量 习题 ， 这 是 针对 书 中 内 容 为 我 们 的 研究 生 课 程 设 计 的 。 这 些 习 题 
的 范围 从 对 材料 的 简单 练习 到 实现 作业 和 研究 问题 。 
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辅助 的 在 线材 料 
与 本 书 关联 的 网 页 (www.mkp.com/ocma/) 包含 勘误 表 。 


本 书 是 在 Rice 大 学 20 年 研究 的 产物 ， 而 这 项 研究 又 依赖 在 其 他 学 术 机 构 多 年 做 的 相关 研 
究 工 作 。 本 书本 身 的 发 展 过 程 已 有 10 年 并 使 用 了 6 种 不 同 的 字 处 理 系统 。 如 此 大 量 的 工作 必然 
要 依靠 两 位 作者 以 外 的 更 多 人 的 工作 ， 我 们 要 感谢 许多 人 ， 他 们 以 自己 的 工作 和 思想 对 本 书 
做 出 了 贡献 。 . 

列 在 这 张 名 单 前 面 的 是 Rice 大 学 过 去 的 博士 生 们 ， 他 们 的 研究 确定 了 本 书 的 大 部 分 内 容 。 
学 生 们 的 论文 材料 直接 包含 在 各 章 中 ， 他 们 是 Vasanth Bala, David Callahan, Steve Carr, 
Keith Cooper, Ervan Darnell. Chen Ding, Gina Goff, Mary Hall, Paul Havlak, Kathryn 
McKinley. Allan Porterfield, Carl Rosene、 Jerry Roth, Linda Torczon, Ajay Sethi 和 Chau- 
Wen Tseng。 特 别 要 感谢 贡献 习题 的 人 们 : Chen Ding, Kathryn McKinley 和 Jerry Roth。 同 样 
重要 的 是 众多 的 研究 生 、 大 学 生 以 及 研究 和 技术 人 员 ， 他 们 对 PFC，ParaScope，D 系 统 和 
Ardent Titan 编 译 器 的 开发 做 出 了 贡献 。 这 些 人 中 ， 我 们 要 特别 感谢 协助 领导 了 这 些 开发 项 目 
的 技术 人 员 : Vikram Adve, David Callahan. Keith Cooper. Mary Hall, Seema Hiranandani, 
Steve Johnson, Kathryn McKinley, John Mellor-Crummey 和 Linda Torczon. 
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高 性 能 体系 结构 对 编译 器 的 挑战 


1.1 概述 和 目标 

过 去 的 二 十 年 一 直 在 激励 人 们 从 事 高 性 能 计算 。 当 今 台式 个 人 计算 机 展示 的 计算 能 力 相 
当 于 20 世 纪 70 年 代 后 期 最 强 的 超级 计算 机 。 其 间 ， 由 于 在 存储 层次 结构 中 使 用 并 行 机 制 和 革 
新 技术 ， 超 级 计算 机 在 实际 应 用 中 已 超出 持续 的 万 亿 次 浮 点 运算 ， 现 在 正 将 它们 的 目标 定 在 
10 到 100 万 亿 次 浮 点 运算 上 。 高 端 超级 计算 系统 可 看 成 是 用 于 软件 研究 和 开发 的 实验 室 ， 因 为 
在 这 样 的 系统 上 开发 的 革新 技术 最 终 找到 了 用 于 台式 计算 机 系统 的 方法 。 

计算 机 速度 的 惊人 改进 产生 了 两 个 有 影响 的 结果 。 首 先 ， 已 经 看 到 根据 基础 技术 构造 的 
机 器 按 Moore 定 律 预言 的 速度 飞速 地 推进 。 图 1-1 描 绘 从 1950 到 2000 年 最 快 的 超级 计算 机 的 峰 
值 性 能 。 很 好 地 遵循 Moore 定 律 的 回归 拟 合 表明 ， 超 级 计算 机 性 能 每 十 年 增长 两 个 数量 级 。 可 
是 技术 自身 已 显 不 足 。 画 出 的 四 个 区 域 表 明 ， 计 算 机 体系 结构 的 差异 一 一 从 标量 到 超标 量 、 
向 量 和 并 行 -一 是 保持 性 能 不 脱离 轨道 所 必需 的 。 显 然 ， 对 超级 计算 的 性 能 来 说 某 种 形式 的 
并 行 性 是 基本 要 素 。 
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图 1-1 过 去 50 多 年 最 快 的 超级 计算 机 性 能 
但 是 ， 并 行 性 不 再 是 超级 计算 机 独 有 的 。 即 使 现今 的 单 处 理 器 达到 惊人 的 性 能 水 准 ， 它 


们 仍然 不 能 满足 台式 计算 机 的 图 像 处 理应 用 和 多 媒体 的 渴求 。 为 满足 这 样 的 需要 ， 提 出 了 单 
处 理 器 设计 包含 许多 并 行 特性 的 要 求 ， 诸 如 多 功能 部 件 ， 多 发 射 指令 处 理 ， 以 及 附加 的 向 量 
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部 件 。 其 至 这 些 策略 也 不 足以 满足 计算 服务 器 的 需求 ， 通 常服 务 器 使 用 适中 数量 (4 到 32 个 ) 
处 理 器 。 显 然 ， 在 市 场 上 并 行 性 已 变 成 一 个 重大 的 因素 。 

高 性 能 计算 机 不 是 惟一 用 并 行 性 来 区 分 的 。 由 于 快速 增长 的 处 理 器 速度 和 相对 较 慢 的 存 
储 技术 改进 速度 ,今天 多 数 处 理 器 有 二 级 或 三 级 高 速 缓存 存储 器 。 设 计 这 些 高 速 缓 存 是 用 来 
隐藏 处 理 器 速度 与 存储 访问 时 间 失 配 所 固有 的 长 时 间 延 迟 。 它 们 也 改善 有 效 的 数据 存储 带宽 ， 
数据 从 高 速 缓存 中 得 到 重用 。 

然而 计算 能 力 方面 的 进展 并 非 没 有 问题 。 当 为 维持 Moore 定 律 的 高 速度 而 使 体系 结构 变 得 
更 复杂 时 ， 对 编程 来 说 就 变 得 更 困难 了 。 多 数 高 端 应 用 程序 开发 者 痛苦 地 意识 到 需要 特殊 的 
技巧 ， 用 来 显 式 管理 存储 器 层次 结构 和 现今 可 扩展 并 行 系统 中 的 通信 。 为 了 尽力 从 各 个 处 理 
器 中 汲取 出 更 高 的 性 能 ， 程 序 员 们 已 学 会 了 如 何 手工 变换 他 们 的 代码 来 改善 多 发 射 单 处 理 器 
上 的 指令 调度 。 . . 

我 们 的 看 法 是 ， 为 高 性 能 计算 机 所 做 的 大 多 数 手工 变换 事实 上 应 当 由 编译 器 、 库 函数 以 
及 运行 系统 来 实施 。 编 译 器 必须 起 特殊 的 作用 ， 因 为 它 的 传统 责任 就 是 将 适合 于 人 类 应 用 程 
序 开 发 人 员 使 用 的 语言 程序 翻译 成 目标 机 器 的 本 机 语言 。 虽 然 正 在 说 服 人 们 相信 编译 器 的 责 
任 在 于 结束 时 产生 源 程序 的 一 个 正确 的 机 器 语言 翻译 ， 但 仅 此 而 已 是 不 够 的 。 编 译 器 必须 产 
生 一 个 适当 有 效 的 程序 。 如 果 做 不 到 这 一 点 ， 应 用 程序 开发 人 员 将 抛弃 使 用 这 种 语言 的 打算 。 

编译 得 到 代码 的 效率 的 重要 性 不 是 新 近 的 关注 点 。 从 Fortran 第 一 个 版 本 开始 ， 它 已 包含 
在 每 一 个 成 功 的 计算 机 语言 的 开发 过 程 中 。 在 John Backus 的 一 段 话 中 ， 反 映 了 1978 年 对 
Fortran I 所 做 出 的 努力 [30]: 

在 Fortran 开 发 的 前 几 个 月 ， 我 们 的 信念 是 ， 如 果 Fortran 将 任何 合理 的 “科学 计算 ” 源 程 

序 翻译 成 目标 程序 ， 其 速度 仅 为 相应 的 手工 代码 的 一 半 ， 那 么 我 们 的 系统 的 可 接受 性 会 处 于 

严重 的 危险 境地 。…… 直到 现在 我 仍 相信 ， 把 重点 放 在 目标 程序 的 效率 上 而 不 是 语言 的 设计 

上 ， 基 本 上 是 正确 和 的。 我 相信 和 如果 不 能 产生 有 效 的 程序 ， 那 么 一 定 会 严重 地 推迟 像 Fortran 这 

种 语言 的 普及 使 用 。 l 

事实 上 ， 我 相信 今天 的 处 境 是 类 似 的 ， 但 未 被 认识 到 : 尽管 所 有 争论 是 围绕 大 量 语言 

节 产 生 的 ， 当 前 传统 语言 仍然 只 是 非常 弱 的 程序 设计 工具 ， 如 果 有 人 发 现 能 力 更 强 的 语言 并 

使 语言 以 相当 有 效 的 方法 运行 ， 那 么 今天 就 会 使 用 此 语言 。 

四 十 年 前 在 第 一 次 开发 出 Fortran 时 说 的 这 些 话 ， 今 天 仍 是 正确 的 。 事 实 上 ， 当 机 器 变 得 更 
复杂 时 ， 编 译 器 技术 甚至 变 得 更 为 重要 。 为 计算 机 体系 结构 中 每 一 项 革新 成 功 提供 有 效 的 语言 
实现 ， 要 视 编译 器 技术 能 力 而 定 ; 换 句 话说 ， 将 达到 高 性 能 的 责任 从 硬件 转向 软件 已 成 为 现代 
机 器 体系 结构 的 趋势 。 在 此 项 任务 中 ， 编 译 器 技术 仅 部 分 地 获得 成 功 。 已 为 向 量化 ， 指 令 调度 
和 多 级 存储 层次 结构 的 管理 研究 出 了 卓越 的 技术 。 另 一 方面 ， 自 动 并 行 性 仅 对 具有 少量 处 理 器 
的 共享 存储 并 行 系统 取得 成 功 ; 对 可 扩展 机 器 ， 编 译 器 并 行 化 仍 是 一 个 未 解决 的 问题 。 

幸好 今天 针对 高 性 能 计算 机 体系 结构 可 利用 的 多 种 多 样 组 合 ， 编 译 需要 的 基本 分 析 结 构 
已 展示 出 有 实用 价值 的 共性 。 多 数 关 键 的 编译 任务 能 用 变换 加 以 处 理 ， 这 些 变换 对 原 程序 中 
的 语句 实例 重新 排序 。 这 些 变换 的 安全 性 ( 即 它们 能 否 保持 程序 的 含义 ) 是 由 依赖 概念 决定 
的 。 已 证 明 依 赖 是 一 个 非常 持久 的 和 广泛 可 应 用 的 概念 。 事 实 上 ， 本 书 以 《基于 依赖 的 编译 : 
理论 和 实践 》 作 为 书 名 可 能 是 个 好 主意 ， 因 为 依赖 是 整 册 书 的 统一 主题 。 

本 书 的 主要 目标 是 介绍 依赖 及 其 支持 的 许多 变换 策略 。 这 些 编译 器 技术 已 在 过 去 二 十 多 年 
中 开发 出 来 ， 支 持 高 端的 机 器 复杂 性 。 我 们 的 目的 是 为 先进 编译 技术 的 学 生 以 及 同样 为 实际 的 
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编译 器 开发 人 员 提 供 有 用 的 资源 。 本 章 其 余部 分 包含 一 个 高 性 能 计算 机 体系 结构 的 简短 介绍 ， 
以 及 处 理 它们 所 需 的 编译 器 策略 。 用 一 个 扩展 的 例子 说 明 这 些 策略 的 折 表 ， 其 中 用 相同 的 程序 
说 明 为 不 同 机 器 组 织 所 做 的 优化 。 最 后 ， 我 们 介绍 依赖 的 概念 ， 它 将 构成 本 书 大 部 分 的 基础 。 


1.2 流水 线 

在 计算 机 体系 结构 中 ， 并 行 性 的 最 早 应 用 之 一 是 使 用 流水 线 一 一 将 一 个 复杂 的 操作 分 成 一 
系列 独立 的 段 ， 如 果 不 同 的 段 使 用 不 同 的 资源 ， 一 旦 它 的 前 一 个 操作 完成 了 第 一 段 ， 立 即 启 
动 一 个 操作 ， 这 样 就 能 重复 执行 其 他 的 操作 。 


1.2.1 流水 线 指令 部 件 

考虑 作为 最 早 流水 线 之 一 的 一 个 例子 : 指令 执行 流水 线 。IBM 7094 是 20 世 纪 60 年 代 中 期 
的 高 端 计算 机 ， 它 的 每 条 指令 分 两 个 阶段 执行 : 取 指 阶段 和 执行 阶段 。 因 为 可 以 安排 这 两 个 
阶段 从 不 同 的 数据 体 中 取 指 令 ， 因 此 下 一 条 指令 取 指 往往 可 以 同 当前 这 条 指令 的 执行 阶段 重 
选 。 根 据 70 年 代 IBM 370 系 列 机 采用 4 级 流水 线 的 执行 阶段 ， 进 一 步 提炼 了 指令 执行 流水 线 的 
概念 。 

过 去 的 几 年 ， 指 令 流 水 线 已 变 得 更 加 复杂 。 图 1-2 给 出 DLX 机 器 的 指令 流水 线 ，Hennessy 
和 Patterson 以 它 为 例 说 明 精 简 指 令 集 计算 机 (RISC) 体系 结构 的 原理 [145]。DPLX 类 似 于 许多 
现代 的 RISC 机 器 ， 包 括 由 SGI 制 造 的 机 器 中 可 以 找到 的 MIPS 体 系 结构 。 





时 钟 周期 


图 1-2 ”PLX 指令 流水 线 [145] 


在 现代 RISC 机 器 中 ， 典 型 的 指令 以 三 种 形式 之 一 出 现 

。 寄存 器 到 寄存 器 ALU 操 作 : 包括 所 有 的 算术 操作 ， 如 整数 和 学 点 数 加 、 减 等 。 

“存储 器 操作 : 这 些 指令 需要 存储 访问 。 从 存储 器 取 进 寄存 器 和 从 寄存 器 存 人 存储 器 是 典 
型 的 例子 。 

。 分 支 指令 : 依据 一 个 条 件 的 值 这 些 指令 改变 下 一 条 被 执行 指令 在 存储 器 中 的 位 置 。 如 果 
条 件 为 真 ， 程 序 计数 器 增加 指令 中 的 立即 值 ， 否 则 PC (程序 计数 器 ) 继续 指向 存储 器 
中 的 下 一 条 指令 。 

设计 的 DLX 流 水 线 用 来 处 理 这 三 类 指令 。 流 水 包括 下 面 的 这 些 级 : 

(1) 取 指 令 (IF) 

(2) 指令 译 码 (ID) 

(3) 执行 (EX) 

(4) 存储 访问 (MEM) 

(5) HS (WB) 
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取 指 和 译 码 是 自明 的 。 为 执行 的 目的 ， 将 EX 和 MEM 级 组 织 在 一 起 。 如 果 指 令 是 一 条 寄存 
器 到 寄存 器 操作 ， 它 能 在 算术 逻辑 部 件 (ALU) 中 实施 ， 则 这 一 条 指令 在 EX 级 完成 。 如 果 它 是 一 
条 存储 访问 指令 ， 则 地 址 计算 在 EX 级 实现 ， 而 存储 访问 实际 上 是 在 MEM 级 发 生 。 注 意 ， 如 采 
需要 的 存储 单元 不 在 高 速 缓存 中 ， 出 现 不 命中 ， 那 么 这 条 指令 将 停顿 (stall) 直到 将 需要 的 块 
(block) 装 入 高 速 缓存 中 。 如 果 指 令 是 分 支 指令 ， 那 么 在 执行 阶段 用 一 个 指定 寄存 器 与 0 比较 ， 
并 在 MEM 级 将 PC 置 成 正确 的 值 。WB 级 用 来 将 数据 写 回 到 寄存 器 中 ; 在 分 支 指令 中 不 使 用 它 。 

如 果 每 个 流水 线 级 使 用 不 同 的 资源 ， 则 相继 指令 的 不 同 级 能 够 重 迭 。 图 1-2 说 明 一 种 能 在 
每 个 机 器 周期 9 上 发 射 一 条 指令 的 调度 。 换 句 话说 ， 在 这 种 理想 调度 下 ， 不 计 启 动 流水 线 需 
要 的 时 间 ， 每 条 指令 的 平均 周期 数 将 是 1。 然 而 这 种 理想 的 调度 不 是 总 能 实现 的 ， 因 为 可 能 受 
到 很 多 状态 〈 称 为 相关 ) 的 干扰 。 这 些 将 在 1.2.4 节 中 讨论 。 
1.2.2 流水 线 执行 部 件 

遗憾 的 是 许多 操作 需要 花费 比 这 些 短 周期 指令 更 长 的 时 间 。 最 显著 的 是 浮 点 操作 ， 它 们 
可 能 要 花 4 个 或 更 多 的 周期 才能 完成 。 例 如 ， 考 虑 在 一 个 典型 的 浮 点 加 法 器 中 的 步 允 。 一 旦 两 
个 运算 对 象 已 从 存储 器 中 取 来 ， 它 们 必须 被 规格 化 ， 使 它们 有 相同 的 阶 。 下 一 步 ， 必 须 将 两 
个 尾数 加 在 一 起 。 最 后 ， 在 将 相 加 的 结果 存 人 目的 地 之 前 ， 得 到 的 相 加 结果 可 能 不 得 不 重新 
规格 化 。 图 1-3 说 明 这 一 过 程 。 


取 操作 数 对 阶 尾数 相 加 结果 规格 化 | 结果 
输入 (FO) (EE) (AM) (NR) 


图 1-3 典型 的 浮 点 加 法 器 

由 于 加 法 部 件 中 每 一 段 独立 于 其 他 段 ， 没 有 理由 不 让 每 一 段 同 时 对 不 同 的 操作 数 进行 运 

算 。 因 此 ， 如 果 需 要 对 几 对 数 求 和 ， 通 过 加 法 部 件 各 个 阶段 的 重 迭 执行 ， 能 加 快 计 算 。 如 图 
1-4 中 的 说 明 。 . 





bs (FO) (EE) (AM) (NR) 
os C4 C3 


图 1-4 计算 a;=b;+c 的 流水 线 执行 部 件 的 瞬 像 


如 果 每 一 段 在 一 对 操作 数 上 工作 需要 的 时 间 是 一 个 周期 ， 那 么 在 没有 流水 线 的 情况 下 实 
施 " 个 加 法 操作 需要 的 时 间 是 4" 个 周期 。 如 果 各 段 重 选 ， 使 得 计算 是 洛 水 线 的 ， 那 么 a 个 加 法 
需要 ”+ 3 个 周期 。 因 为 一 旦 流水 线 被 充满 ， 加 法 器 每 个 周期 产生 一 个 结果 。 因 此 ， 对 极 大 晤 
的 计算 ， 用 流水 线 执行 一 条 加 法 指令 的 时 间 有 效 地 从 4 个 周期 降 至 1 个 周期 。 

一 个 流水 线 功 能 部 件 是 有 效 的 ， 仅 当 流 水 线 保持 充满 即 仅 当 在 每 个 段 时 钟 周期 上 的 操 
作 有 可 使 用 的 运算 对 象 。 很 遗憾 ， 用 户 的 计算 很 少 满足 此 需求 。 其 结果 ， 有 效 地 利用 一 个 流 
水 线 功 能 部 件 需要 (通常 指 编译 器 ) 重 排 用 户 计算 的 顺序 ， 使 得 递送 必需 要 的 运算 对 象 足够 
地 快 ， 以 保持 流水 线 充 满 。 


日 ”以 后 文中 出 现 的 周期 均 指 机 器 周期 或 时 钟 周期 。 一 一 译 者 注 
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1.2.3 并 行 功能 部 件 
如 果 复 制 了 多 个 功能 部 件 ， 那 么 如 图 1-5 所 描绘 的 每 个 部 件 就 能 对 一 条 无 关 指 令 工作 。 当 


执行 部 件 发 射 一 条 指令 时 ， 它 将 这 条 指令 送 到 一 个 
空闲 的 功能 部 件 上 ， 如 果 存 在 这 样 的 部 件 的 话 。 否 | | > 
则 ， 它 等 待 一 个 功能 部 件 变 为 空闲 的 。 如 果 有 n 个 功 ta 
能 部 件 ， 每 个 以 m 个 周期 完成 它 的 操作 ， 则 机 器 平均 me 
每 个 周期 能 发 射 n/m 个 操作 。 这 类 并 行 性 (也 称 为 细 > hto 


GAHR), 年 一 看 可 能 比 流水 线 显 得 更 有 吸引 力 ， a | | BR 
因为 它 允 许 操作 的 自由 度 更 宽 。 然 而 ， 这 里 关联 到 me = 
代价 问题 。 首 先 ， 一 个 流水 线 部 件 的 代价 比 非 流水 











线 部 件 稍 高 一 些 ?， 而 多 功能 部 件 的 代价 显然 比 单 | | 加 法 器 4 
功能 部 件 多 若干 倍 。 第 二 ， 功 能 部 件 比 起 流水 线 并 ba + C4 


行 性 需要 更 加 复杂 的 执行 逻辑 。 当 然 ， 可 复制 流水 
线 的 功能 部 件 ， 因 此 ， 也 可 同时 使 用 流水 线 和 多 部 
件 并 行 性 。 
1.2.4 标量 流水 线 编译 

在 流水 线 的 体系 结构 中 ， 关 键 的 性 能 屏障 是 存在 流水 线 停 顿 (pipeline stall)。 当 一 组 新 
的 输入 不 能 注入 流水 线 时 ， 就 发 生 停顿 。 这 是 由 于 一 种 称 为 相关 (hazard) 的 状态 造成 的 。 
Hennessy 和 Patterson[145] 将 相关 分 为 三 类 : 

(1) 结构 相关 ， 它 的 发 生 是 由 于 机 器 资源 不 支持 有 可 能 发 生 的 指令 覆盖 组 合 。 

(2) 数据 相关 ， 它 是 发 生 在 一 条 指令 产生 的 结果 是 一 条 后 续 指令 需要 的 时 候 。 

(3) 控制 相关 ， 它 的 发 生 是 由 于 分 支 处 理 。 
对 于 本 章 前 面 讨论 的 各 种 流水 线 ， 我 们 将 用 例子 说 明 这 三 类 相关 。 

在 任何 时 候 ， 一 种 特定 体系 结构 的 实现 没有 是 够 的 资源 支持 某 些 种 类 的 覆盖 就 会 发 生 结 
构 相 关 。 例 如 ， 如 果 一 台 机 器 仅 有 一 个 到 存储 器 的 端口 ， 它 就 不 能 覆盖 带 取 数据 的 取 指 。 这 
种 限制 基本 上 会 使 IBM 7094 串 行 化 ， 降 低 它 的 处 理 器 性 能 。 在 一 台 仅 有 一 个 存储 端口 的 DLX 
上 ， 在 每 条 load 指 令 之 后 的 第 3 条 指令 上 会 发 生 停 顿 ， 因 为 数据 和 指令 的 读 取 会 发 生 冲 突 〈 见 
图 1-6)。 因 此 DLX 的 编译 器 策略 不 可 能 避免 这 类 结构 相关 。 


cs 
fie fe 
cee | i 
sat Le be 


图 1-6 具有 一 个 存储 器 端口 的 DLX 的 结构 相关 


图 1-5 多 功能 部 件 





取 指令 






ALU 


ALU 





ALU 





© Seymour Cray 在 20 世 纪 60 年 代 设 计 Control Data 6600 (大 约 1965 年 ， 它 使 用 了 多 个 部 件 ) 和 Control Data 
7600 (大 约 1969 年 ， 它 使 用 了 流水 线 ) 之 间 发 现 了 这 … -点 。 
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数据 相关 会 发 生 在 像 DLX 这 样 的 多 级 流水 线 上 。 在 现代 机 器 上 ， 利 用 从 ALU 向 ALU 的 下 
一 流水 线 级 传递 结果 从 而 避免 大 多 数 停 顿 。 因 此 像 


ADD R1, R2, R3 
SUB R4, R1, R5 


这 样 的 指令 序列 能 没有 延迟 地 被 执行 ， 因 为 加 法 指令 的 结果 是 直接 被 送 到 减法 指令 的 执行 级 ， 
而 不 用 等 待 回 写 到 寄存 器 中 。 然 而 ， 这 在 


LW R1, O(R2) 
ADD R3, R1, R4 


序列 是 不 可 能 的 ， 因 为 在 存储 周期 结束 前 ， 取 数 指令 的 结果 是 不 可 能 得 到 的 。 因 此 ， 我 们 看 
到 如 图 1-7 所 描绘 的 一 个 周期 的 停顿 。 i 


LW R1,0(R2) 


ADD =R3,R1,R4 





图 1-7 由 于 存储 时 延 导致 DLX 数 据 相 关 需 要 一 个 停顿 


在 上 面 load 和 add 指 令 之 间 插 入 一 条 这 样 的 指令 ， 它 不 使 用 那个 正在 取 数 的 寄存 器 ， 编 译 
器 调度 就 能 消除 此 问题 。 

流水 线 功能 部 件 向 编译 器 调度 提出 一 个 类 似 的 挑战 ， 因 为 一 条 指令 可 能 需要 等 待 一 个 由 
前 一 条 指令 计算 的 输入 ， 这 就 是 执行 部 件 流水 线 中 的 一 个 停顿 (still)。 在 DLX 上 ， 多 周期 操 
作 占有 几 个 执行 级 ， 取 决 于 执行 操作 需要 的 流水 线 级 数 。 假 设 我 们 希望 在 一 台 机 器 上 执行 
Fortran 表 达 式 

A+B+C 
其 中 浮 点 加 的 流水 线 需要 两 级 。 如 果 按 从 左 到 右 的 顺序 对 表达 式 求 值 ， 那 么 第 二 条 加 法 指令 
在 执行 前 将 不 得 不 等 待 一 个 周期 ， 如 图 1-8 所 示 。 


wr vase [e Pw [oa [oe [ui] 
arma — [Le [emo [ae pen a 


图 1-8 由 于 指令 时 延 导致 DLX 数 据 相 关 需 要 一 个 停顿 
编译 器 调度 再 一 次 能 帮助 避免 这 些 停顿 。 例 如 ， 假 设 求 值 的 表达 式 是 


A+B+C+0D 

在 第 一 个 加 操作 之 后 ， 每 个 加 法 将 不 得 不 等 两 个 周期 ， 等 前 一 个 加 法 做 完 ， 这 需要 两 个 
停顿 。 另 一 方面 ， 如 果 编 译 器 能 重组 这 些 加 法 ， 如 像 

(A +B) + (C+D) 
在 第 一 个 加 法 操作 之 后 一 个 周期 ， 能 进行 第 二 个 加 法 操作 一 个 周期 。 在 第 三 个 加 法 操作 中 将 
仍 有 一 个 停顿 ， 但 是 停顿 的 总 数 已 减少 了 一 个 。 

控制 相关 是 由 分 支 指令 引起 的 。 在 DLX 上 ， 一 个 控制 相关 能 导致 3 个 周期 的 停顿 ， 如 图 
1-9 所 示 。 假 设 不 取 分 支 ， 处 理 器 开始 取 分 支 之 后 的 指令 。 如 果 此 假设 证 明 是 正确 的 ， 那 么 





流水 线 将 进行 而 不 用 中 断 。 但 是 ， 在 分 支 指令 的 MEM 阶 段 之 前 是 否 取 分 支 是 不 知道 的 。 如 
果 取 它 ， 那 么 必须 在 新 位 置 上 重新 开始 处 理 这 条 指令 ， 并 且 在 分 支 之 后 和 向 存储 器 存 人 或 回 
写 到 寄存 器 之 前 ， 必 须 将 该 条 指令 产生 的 中 间 结 果 抛 弃 掉 。 因 此 当 取 分 支 时 ， 我 们 得 到 一 个 
实在 的 3 周期 停顿 。 


TOOCCO 
rll | oll 


停顿 ”停顿 ”停顿 
图 1-9 使 用 自然 实现 取 分 支 的 DLX 控 制 相关 


因为 3 周期 停顿 是 极为 不 利 的 后 果 ， 机 器 设计 者 花费 很 长 时 间 去 降低 这 种 代价 。 一 种 方法 
是 增加 硬件 使 得 能 在 指令 译 码 (ID) 级 确定 条 件 的 输出 和 分 支 的 目标 。 如 果 条 件 是 简单 的 ， 比 
如 测试 等 于 0， 只 要 有 一 个 附加 的 ALU 就 能 做 到 这 两 件 事 。 因 此 ， 对 这 些 简 单 的 分 支 ， 执 行 分 
支 的 流水 线 停顿 能 减少 至 一 个 周期 ， 如 图 1-10 所 示 。 注 意 ， 如 果 不 取 分 支 ， 那 么 就 没有 停顿 。 


ra 
= 
MEM 
停顿 IF EX 


图 1-10 通过 及 早 识别 分 支 目 标 减少 流水 线 停顿 


用 这 种 方法 实现 的 DLX， 通 过 程序 设计 或 编译 器 优化 无 法 在 被 取 的 分 支 上 避免 一 个 周期 
的 停顿 。 然 而 ， 某 些 RISC 体 系 结构 提供 一 条 ”branch-and-execute” 指 令 ， 在 执行 分 支 之 前 ， 
总 能 执行 指令 序列 中 的 下 一 条 指令 。 这 就 允许 编译 器 去 重新 安排 指令 ， 使 得 循环 体 中 的 最 后 
一 个 操作 (通常 是 一 数据 存储 ) 在 “此 分 支 下 ”执行 。 

正如 我 们 通过 这 些 例 子 已 看 到 的 ， 克 服 由 于 相关 引起 的 性 能 问题 ， 编 译 器 的 主要 策略 是 
重新 安排 指令 ， 使 得 停顿 一 一 特别 是 那些 由 于 数据 相关 引起 的 停顿 一 一 决 不 发 生 。 这 种 策略 称 
为 指令 调度 ， 将 推迟 到 1.4.2 节 讨论 ， 它 涉及 超标 量 和 VLIW 体 系 结构 。 


1.3 向 量 指令 

在 20 世 纪 70 年 代用 一 个 标准 指令 流 使 流水 线 保持 充满 的 任务 变 得 很 繁重 。 高 端 超级 计算 
机 过 去 一 直 使 用 硬件 策略 在 指令 流 中 前 视 可 以 被 启动 的 操作 而 不 用 等 待 另 一 个 操作 完成 。 这 
些 策略 使 得 读 取 指 令 和 发 射 远 辑 极端 地 复杂 。 

机 器 设计 者 努力 去 简化 指令 处 理 ， 在 70 年 代 中 期 转向 一 种 替代 的 方法 ， 在 其 中 某 些 指令 
( 称 为 向 量 指令 ) 自身 能 充满 浮 点 流水 线 。 这 一 节 讨 论 向 量 指令 及 使 用 中 涉及 的 发 射 问题 。 


1.3.1 向 量 硬件 概述 

一 条 典型 的 向 量 指令 启动 存储 器 中 或 定 长 向 量 寄存 器 中 两 个 向 量 按 元 素 的 操作 ， 能 用 单个 
操作 从 存储 器 中 取向 量 。1975 年 发 布 的 Cray 1 有 7 个 向 量 寄存 器 ， 每 个 寄存 器 有 64 个 元 素 。 每 
个 向 量 操作 (包括 取向 量 ) 在 启动 之 后 每 个 周期 能 产生 一 个 结果 ， 局 动 延迟 的 时 间 等 于 流水 
线 的 长 度 。 

为 了 避免 对 连接 的 向 量 指令 过 多 的 启动 延迟 ， 许 多 处 理 器 支持 向 量 操作 的 链接 。 由 于 要 
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等 待 前 一 个 向 量 操作 计算 的 结果 ， 所 以 一 个 向 量 操作 的 链接 在 第 一 个 结果 可 以 使 用 时 立即 着 
手 启 动 。 因 此 指令 序列 

VLOAD VRI, M 

VADD VR3, VR2, VRI 


在 延迟 时 间 等 于 向 量 取 和 向 量 加 的 启动 延迟 时 间 之 和 时 ， 随 后 就 会 开始 递交 结果 给 YVR3。 如 果 不 
用 链接 ， 在 启动 向 量 加 之 前 需要 等 待 ， 一 直 等 到 向 量 取 完 成 了 才能 启动 这 条 向 量 加 指令 。 

向 量 指令 极 大 地 简化 了 发 射 足够 的 操作 使 流水 线 保持 充满 的 过 程 。 然 而 包括 这 些 指令 在 
内 有 若干 缺点 。 首 先 ， 它 们 需要 为 向 量 寄 存 器 大 量 地 增加 处 理 器 状态 ， 这 就 增加 了 处 理 器 的 
耗费 并 使 现场 切换 更 复杂 。 第 二 ， 它 们 扩大 了 机 器 的 指令 总 数 ， 因 此 要 做 大 量 的 、 复 杂 的 指 
令 译 码 。 最 后 ， 问 量 指令 使 存储 层次 结构 设计 复杂 化 ， 因 为 它们 妨碍 高 速 缓存 的 操作 。 为 了 
避免 过 多 的 高 速 缓存 回收 问题 ， 以 及 保持 带宽 高 度 ， 多 数 向 量 机 在 向 量 存 取 上 绕 过 高 速 缓存 。 
这 又 引入 了 向 量 操作 之 后 维护 存储 器 与 高 速 缓存 之 间 的 一 致 性 问题 。 为 回避 此 问题 Cray 
Research 公 司 完 全 不 用 高 速 缓 存 ， 代 之 使 用 一 组 显 式 管理 的 标量 暂 存 寄存 器 。 


1.3.2 向 量 流水 线 编译 

虽然 向 量 指令 简化 填 满 指令 流水 线 的 任务 ， 但 是 给 编译 器 和 程序 员 带 来 了 新 问题 。 其 中 
最 重要 的 是 要 保证 向 量 指令 正确 地 实现 用 来 编码 的 循环 。 下 面 的 向 量 操作 序列 将 取 自 A 和 8 的 
两 个 有 64 个 元 素 的 向 量 9 相 加 并 将 结果 存 人 C 中 。 

VLOAD v1, A 

VLOAD v2, B 


VADD V3, V1, V2 
VSTORE c, V3 


注意 ， 在 寄存 器 上 发 生 load-store 冲 突 时 ， 多 数 向 量 操作 会 互 锁 ， 但 是 对 存储 器 不 会 (PRE 
处 理 器 ， 如 DLX ) 。 

为 了 说 明 向 量 机 的 主要 编译 器 问题 ， 我 们 介绍 Fortran 90 向 量 表示 法 。 在 Fortran 90 中 向 量 
操作 的 语义 反映 多 数 向 量 指令 集 所 具有 的 语义 。 确 切 地 讲 ， 它 们 为 向 量 机 提供 一 种 较 容 易 的 
表示 编译 器 问题 的 方法 。 前 面 的 向 量 加 操作 用 Fortran 90 将 写成 

C(1:64)= A(1:64) + B(1:64) 

在 Fortran 90 标 准 语义 下 ， 数 组 赋值 语句 必须 实现 的 行为 犹如 在 存 人 任何 结果 元 素 前 ， 先 
从 存储 器 中 取出 赋值 语句 右 端 的 每 个 输入 。 换 言 之 ， 凡 提 到 右 端的 所 有 输入 时 ， 均 指 此 语句 
执行 之 前 的 值 。 . 

虽然 Fortran 90 支 持 显 式 向 量 操作 ， 但 是 由 于 历史 原因 ， 多 数 程序 是 用 Fortran 90 的 方言 
Fortran 77 编 写 的 ， 因 此 用 循环 说 明 可 以 由 向 量 硬件 加 速 执行 的 操作 。 从 这 些 程序 中 抽取 向 量 
并 行 操 作 是 对 编译 器 的 挑战 ， 这 些 程序 将 用 类 似 下 面 形式 的 简单 循环 编写 

DO I = 1，64 


C(I) = A(I)*B(1) 
ENDDO 


在 编译 器 能 调度 此 向 量 硬件 的 循环 之 前 ， 它 必须 确定 此 循环 是 否 在 语义 上 等 价 于 上 述 
Fortran 90 的 数组 赋值 。 如 果 等 价 ， 那 么 循环 内 的 赋值 语句 能 向 量化 ， 将 循环 归纳 变量 的 引用 


信 ” 贯 穿 全 书 ， 在 没有 说 明 特 定 的 硬件 向 量 长 度 时 ， 假设 长 度 为 4， 它 是 最 常见 的 向 鞭 长 度 。 





直接 翻译 成 相应 的 三 元 组 表示 法 。 然 而 ， 问 题 并 不 那么 简单 ， 因 为 循环 在 开始 执行 下 一 次 这 
代 之 前 ， 应 执行 本 次 迭代 的 所 有 的 取 数 和 存 数 ， 而 数组 语句 是 在 任何 存 数 之 前 执行 所 有 的 取 
数 。 在 上 面 这 种 情况 下 ， 两 种 执行 顺序 产生 相同 的 最 后 结果 ， 所 以 含义 精确 相同 一 一 因此 ， 
此 循环 称 为 可 向 量化 的 。 然 而 稍 有 差别 的 情况 说 明 流 在 的 问题 : 

DOI=1,64 

ACI + 1) = ACI) + B(I) 

ENDDO 
ix, Fortran 7796 AH) 2 — eK HE A ARER EAR, Ale] PEM Fortran 90 数 组 
语句: 

A(2:65) = A(1:64) + B(1:64) 
在 此 Fortran 90 数 组 语句 中 ， 右 端 所 有 的 输入 引用 旧 值 。 因 此 第 二 个 Fortran 77 循 环 是 不 可 向 量 
化 的 。 区 分 出 这 两 种 情况 是 向 量化 的 基本 问题 ， 并 推动 数据 依赖 理论 的 发 展 。 

倘若 向 量 机 的 主要 编译 器 问题 是 暴露 向 量 操作 的 话 ， 那 么 使 用 包含 显 式 数组 操作 的 语言 
(如 Fortran 90) 也 许 能 解决 向 量化 问题 。 不 幸 显 式 数组 操作 有 一 组 类 似 的 编译 问题 ， 正 如 我 
们 将 在 第 13 章 见 到 的 〈 或 者 也 是 幸运 ， 如 果 你 使 自己 像 编 译 器 编写 者 一 样 生活 ! )。 


1.4 超标 量 处 理 器 和 VLIW 处 理 器 

向 量 操作 的 主要 缺点 是 复杂 的 指令 集 设计 。 除 了 完备 的 标量 指令 -一 在 最 现代 的 机 器 上 有 
几 百 种 一 一向 量 处 理 器 必须 支持 一 个 相称 的 巨大 的 向 量 指令 集 ， 不 仅 包括 执行 计算 的 指令 ， 
还 要 包括 创建 向 量 操作 的 指令 ， 以 及 在 位 向 量 掩 码 下 操作 的 条 件 指令 。 

这 种 复杂 性 是 能 够 避免 的 。 如 果 我 们 可 以 在 每 个 周期 发 射 一 条 或 多 条 流水 线 的 指令 ， 那 
么 可 能 充满 执行 部 件 流水 线 ， 并 以 与 向 量 处 理 器 可 比 的 速度 产生 结果 。 这 就 是 在 超标 量 指令 
字 和 超 长 指令 字 (VLIW) 体 系 结构 包含 的 基本 思想 。 


1.4.1 多 发 射 指令 部 件 

在 超标 量 和 VLIW 模 式 中 ， 假 设 所 有 的 输入 已 就 绪 ， 那 么 设计 的 处 理 器 就 要 尽 可 能 快 地 发 
射 指令 。 典 型 的 这 类 机 器 有 能 力 在 每 个 周期 发 射 多 条 指令 ， 直 至 由 硬件 确定 的 某 个 上 限 。 

超标 量 机 器 通过 硬件 实现 多 发 射 ， 在 操作 的 指令 流 中 前 视 那 些 执行 就 结 的 操作 。 因 此 ， 
一 个 超标 量 处 理 器 能 连续 发 射 指令 ， 只 要 过 到 的 每 条 指令 是 “就 绪 ” 的 。 某 些 机 器 其 至 有 能 
力 乱 序 发 射 指令 。 

另 一 方面 ，VLIW 人 处理 器 每 个 周期 用 执行 单条 “ 宽 指 令 ” 的 办 法 发 射 多 条 指令 。 一 条 宽 指 
令 装 有 几 条 常规 的 指令 ， 它 们 在 同一 时 刻 被 发 射出 去 。 典 型 情况 下 ， 这 些 指令 的 每 一 条 对 应 
于 不 同 的 功能 部 件 上 的 一 个 操作 。 因 此 ， 如 果 一 台 VLIW 机 器 有 两 个 流水 线 的 浮 点 乘法 部 件 ， 
每 个 周期 它 能 发 射 两 个 浮 点 乘法 。 在 一 个 VLIW 系 统 上 ， 期 待 程序 员 或 编译 器 去 管理 执行 调度 
和 正确 地 组 装 宽 指令 字 一 一 使 得 在 它 的 所 有 输入 就 绪 之 前 没有 指令 被 发 射出 去 。 因 此 ,在 这 
类 机 器 上 ， 不 需要 特殊 的 前 视 硬件 。 

虽然 超标 量 和 VLIW 系 统 结构 能 达到 向 量 执行 的 速度 ， 但 它们 有 若干 缺点 。 首 先 ， 它 们 需 
要 更 高 的 从 存储 器 读 取 指令 的 带宽 ， 必 须要 有 足够 大 的 指令 高 速 缓 存 能 容纳 一 个 典型 循环 中 
的 所 有 指令 。 另 外 ， 典 型 的 数据 读 取 如 同 简单 处 理 器 那样 使 用 相同 的 存储 层次 结构 ， 所 有 的 
运算 对 象 要 通过 高 速 缓存 传递 ， 当 高 速 缓存 尺寸 受到 限制 而 运算 对 象 仅 使 用 一 次 时 ， 这 就 引 
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起 问题 。 这 是 多 数 向 量 机 上 设计 的 向 量 取 数 绕 过 标量 高 速 缓存 的 理由 。 

通过 高 速 缓 存 传递 值 引起 的 另 一 个 问题 是 ， 跨 距 为 1 的 数据 访问 对 良好 的 性 能 变 得 更 为 要 
紧 。 如 果 循 环 中 访问 方式 不 是 连续 的 ， 对 不 是 马上 使 用 的 运算 对 象 来 说 ， 浪 费 了 存储 器 和 高 
速 缓存 之 间 多 数 可 利用 的 带宽 。 倘 车 对 这 样 的 机 器 来 说 带宽 限制 是 主要 问题 的 话 ， 那 么 这 是 
一 个 严重 的 问题 。 

理论 上 讲 ， 可 以 把 超标 量 机 器 和 VLIW 机 器 想像 成 向 量 处 理 器 ， 因 为 它们 能 有 效 地 利用 由 向 
量化 暴露 的 并 行 性 。 确 实 ， 许 多 现代 的 微 处 理 器 (如 像 在 苹果 公司 Macintosh 中 使 用 的 PowerPC 
G4)， 包 含 的 “向 量 部 件 ” 实 际 上 是 VLIW 协 处 理 器 。 


1.4.2 多 发 射 处 理 器 的 编译 

为 了 充分 达到 它们 的 潜能 ， 超 标量 机 器 和 VLIW 机 器 需要 小 心地 规划 操作 ， 让 机 器 资源 极 
尽 所 能 地 得 到 使 用 。 因 为 大 多 数 应 用 程序 开发 者 不 是 用 机 器 语言 写 程序 ， 实 现 规划 的 过 程 是 
编译 器 的 任务 。 这 涉及 到 两 方面 的 挑战 : 

(1) 编译 器 必须 识别 何 时 操作 设 有 依赖 关系 。 无 依赖 操作 可 以 按 相 对 于 其 他 操作 的 任何 
顺序 执行 ， 有 依赖 的 操作 则 不 能 。 

(2) 编译 器 必须 调度 计算 中 的 指令 ， 使 其 需要 的 周期 数 尽 可 能 地 少 。 

向 量化 能 应 付 第 一 个 挑战 ， 因 为 向 量化 暴露 许多 能 并 行 执行 的 操作 。 另 一 方面 ， 第 二 个 
挑战 需要 一 种 编译 器 策略 ， 称 为 指令 调度 ， 这 是 第 10 章 的 主题 。 按 其 最 简单 的 方式 来 说 ， 指 
令 调度 是 在 处 理 器 资源 和 程序 依赖 的 限制 内 尽 可 能 早 地 执行 指令 。 

一 个 经 常 被 重复 的 神话 是 ， 现 代 超 标量 处 理 器 不 需要 调度 ， 因 为 它们 使 用 积极 的 强 有 力 
的 前 视 策略 。 确 实 ， 超 标量 体系 结构 比 起 VLIW 处 理 器 来 说 ， 调 度 的 必要 性 较 少 。 然 而 ， 所 有 
的 超标 量 系统 前 视 指令 流 的 窗口 都 受到 尺寸 的 限制 ， 并 且 当 硬件 并 行 性 数量 增加 时 ， 并 行 操 
作 的 搜索 将 需要 拓宽 范围 ,很 可 能 超出 指令 流 前 视 的 限制 。 编 译 器 通过 重新 安排 指令 流 ， 对 
保证 尽 可 能 多 的 并 行 操作 适应 此 前 视窗 口 会 有 帮助 。 、 

在 这 一 节 , 我 们 集中 于 VLIW 处 理 器 ， 因 为 它们 必须 显 式 地 调度 ， 从 而 使 发 射 透明 清晰 。 
另外 ， 一 个 好 的 VLIW 处 理 器 调度 也 为 有 相同 资源 的 超标 量 处 理 器 提供 一 种 好 的 调度 一 一 列 出 
从 第 一 个 周期 到 最 后 一 个 周期 的 每 个 周期 中 一 个 超标 量程 序 应 产生 的 指令 ， 该 程序 至 少 与 生 
成 调度 好 的 VLIW 程 序 一 样 工作 。 

为 调度 直线 代码 ， 编 译 器 必须 了 解 哪 些 指令 依赖 于 另外 一 些 指令 ， 对 于 每 个 依赖 关系 ， 
在 第 1 条 和 第 2 条 指令 之 间 需 要 多 长 的 延迟 。 为 了 说 明 这 一 点 ， 考 虑 为 一 台 每 个 周期 能 发 射 一 
条 指令 的 机 器 调度 下 面 的 指令 序列 : 


LF R1, A 
LF R2, B 
ADDF R3, R1, R2 
STF X, R3 
LF R4, C 
ADDF R5, R3, R4 
STF Y, R5 


如 果 从 高 速 缓 存 取 数 有 2 周期 延迟 一 一 即 不 能 发 射 任何 使 用 load 结 果 的 指令 ， 一 直 要 等 到 
发 射 10ad 指 令 两 个 周期 之 后 一 一 并 且 浮 点 加 指令 也 有 2 周期 延迟 ， 通 过 将 取 C 的 load 指 令 向 前 移 
动 ， 将 存 X 的 store 指 令 向 后 移动 ， 则 能 改善 上 面 序列 的 调度 : 











LF R1, A 
LF R2, 8 
LF R4, C 


STF OY, RS 
第 一 个 调度 发 射 所 有 的 指令 需要 用 11 个 周期 ， 因 为 在 指令 间 必 须 插 入 4 个 1 周期 的 延迟 
每 条 加 法 指令 和 每 条 store 指 令 前面 各 一 个 周期 。 另 一 方面 ， 第 二 个 调度 发 射 所 有 的 指令 仅 用 8 
个 周期 ， 因 为 仅 在 两 条 加 法 指令 之 间 需 要 延迟 。 
在 每 个 周期 能 发 射 多 于 一 条 指令 的 机 器 上 ， 不 能 改善 上 面 的 代码 段 ， 因 为 指令 之 间 有 过 
多 依赖 。 然 而 ， 考 虑 下 面 的 序列 ， 它 执行 两 个 无 依赖 的 加 法 操作 : 





LF R1, A 
LF R2, B 
ADDF R3, RI, R2 
STF X, R3 
LF R4, C 
LF R5, D 
ADDF R6, R4, RS 
STF Y, R6 


在 一 台 每 个 周期 能 发 射 两 条 load 指 令 和 两 条 add 指 令 的 VLIW 机 器 上 ， 我 们 完全 能 用 第 一 
个 表达 式 计算 覆盖 第 二 个 表达 式 计算 。 另 一 方面 ， 如 果 机 器 每 个 周期 能 发 射 两 条 load 指 令 ， 
但 只 能 发 射 一 条 add 指 令 ， 那 么 我 们 需要 一 个 额外 的 周期 ， 如 下 面 的 调度 所 示 : 











在 循环 中 ， 调 度 变 得 更 复杂 ， 这 里 的 目标 是 构造 一 个 长 度 最 短 的 等 价 循 环 ， 办 法 是 用 原 
循环 的 不 同 迭 代 覆 盖 计 算 。 这 类 调度 也 称 为 “ 软 流 水 线 " ， 将 在 第 10 章 讨论 。 
1.5 处 理 器 并 行 性 


虽然 流水 线 是 加 速 单 处 理 器 或 功能 部 件 执 行 的 有 效 方法 ， 但 处 理 器 并 行 性 同时 使 用 多 处 
理 器 完成 不 同 的 任务 ， 或 在 不 同 的 数据 集 上 完成 相同 的 任务 ， 从 而 减少 应 用 程序 的 运行 时 间 。 


1.5.1 处 理 器 并 行 性 概述 
通常 有 两 种 处 理 器 并 行 性 的 使 用 形式 ， 以 它们 的 同步 粒度 来 区 分 。 
。 同 步 的 处 理 器 并 行 性 : 此 策略 复制 全 部 处 理 器 ， 使 每 个 处 理 器 在 数据 空间 的 不 同 部 分 上 
执行 相同 的 程序 。 这 类 并 行 系统 的 例子 有 Thinking Machines CM-2, MasPar MP-2 和 
AMT DAP， 都 是 在 20 世 纪 80 年 代 晚 期 或 90 年 代 早期 引入 的 。 同 步 系 统 的 主要 优点 是 同 
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步 操作 价 廉 ， 因 为 指令 是 按 锁 步 方式 执行 ， 所 以 这 些 机 器 有 利用 更 细 的 并 行 性 粒度 的 能 
力 。 另 一 方面 ， 对 于 有 分 支 的 代码 ， 同 步 机 器 不 是 十 分 有 效 ， 因 为 它们 必须 执行 序列 中 
[17] 分 支 的 两 边 ， 不 能 在 每 一 边 使 用 不 同 的 处 理 器 。 

。 异 步 的 处 理 器 并 行 性 : 并 行 性 的 第 二 种 形式 复制 全 部 处 理 器 ， 但 是 让 每 个 处 理 器 以 粗 粒 
度 显 式 同 步 执行 不 同 的 程序 或 相同 程序 的 不 同 部 分 。 图 1-11 显 示 有 代表 性 的 带 共 享 全 局 
存储 器 的 异步 并 行 机 器 结构 。 使 用 这 种 设计 的 多 处 理 器 称 为 对 称 的 多 处 理 器 (SMP), 
从 各 种 供 货 商 那里 可 以 得 到 这 类 产品 ， 包 括 Compaq, Hewlett-Packard, IBM, Intel, 
Sequent，Silicon Graphics 和 Sun Microsystems。 在 这 些 机 器 上 必须 显 式 地 说 明 任 何 需 要 
的 处 理 器 之 间 的 同步 ， 因 为 在 同步 点 之 间 各 处 理 器 的 执行 是 独立 的 。 蜡 步 并 行 性 的 问题 
是 ， 启 动 并 行 任务 的 代价 比较 高 一 一 必须 为 每 个 处 理 器 产生 一 个 进程 ， 并 且 在 访问 任何 
共享 的 数据 之 前 必须 使 各 处 理 器 同步 。 由 于 这 种 高 的 开销 ， 仅 当 有 足够 的 工作 补偿 开销 
时 ， 使 用 并 行 执行 才 是 必要 的 。 


总 线 | | 














图 1-11 异步 共享 存储 多 处 理 器 


尽管 并 行 性 有 优点 ， 但 它 对 硬件 和 软件 设计 者 提出 了 许多 问题 。 当 一 人 台 机 器 包含 多 个 处 
理 器 时 ， 需 要 有 某 种 机 制 在 不 同 的 处 理 器 之 间 共 享 资 源 。 这 些 处 理 器 还 必须 有 能 力 互 相通 信 ， 
以 便 传 递 数据 和 协调 计算 ， 这 涉及 到 复杂 的 硬件 机 制 。 最 后 ， 并 行 机 器 的 软件 一 般 来 说 比 标 
量 机 和 向 量 机 的 软件 复杂 得 多 。 为 此 ， 并 行 处 理 比 向 量 处 理 花 了 更 长 的 时 间 才 获得 广泛 的 接 
受 。 然而， 在 本 书 出 版 时 ， 具 有 适当 数量 处 理 器 的 共享 存储 并 行 计 算 机 已 成 为 科学 和 工程 计 
算 工作 站 的 标准 机 器 。 
虽然 用 各 种 形式 的 并 行 处 理 能 达到 令 人 印象 深刻 的 速度 ， 但是， 快速 硬件 仅仅 是 快速 程 
|18| 序 的 一 种 必要 条 件 。 除 非 软 件 能 有 效 地 利用 处 理 器 内 部 提供 的 并 行 性 ， 否 则 硬件 简直 变 成 浪 
费 昂 贵 的 资源 。 因 此 ， 增 加 应 用 程序 的 有 效 计算 速率 需要 在 语言 级 为 挖掘 并 行 性 开发 出 若干 
机 制 。 


1.5.2 异步 并 行 性 的 编译 

虽然 乍 一 看 异步 并 行 性 的 编译 应 当 粗 略 地 显现 出 与 向 量化 相同 的 挑战 ， 但 是 ， 它 有 另外 
的 一 些 复杂 性 。 首 先 ， 在 并 行 机 上 执行 调度 允许 有 更 多 的 灵活 性 。 为 了 支持 对 这 一 主题 的 讨 
论 ， 我 们 为 并 行 循 环 引进 一 种 Fortran 表 示 法 。 

PARALLEL D0 语 句 类 似 于 许多 Fortran 方 言 中 使 用 的 结构 ， 保 证 在 它 的 迭代 之 间 没 有 调度 限 
制 。 因 此 ， 按 照 任何 调度 可 以 并 行 地 执行 不 同 的 迭代 。 换 名 话说， 该 语句 是 程序 员 给 系统 的 
断言 ， 让 系统 无 约束 地 并 行 执行 这 些 逸 代 。Bernstein 在 1966 年 的 一 篇 文章 [40] 中 ， 确 认 两 个 迭 
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代 I 和 1I? 能 安全 地 并 行 执行 ， 如 果 

(1) BRLA SA BRR LIRR AIC 

(2) 迭代 I: 不 写 信 被 迭代 I 读 取 的 单元 

(3) BRL ABSA HERL SABI 

作为 具体 说 明 ， 考 虑 下 面 的 例子 ， 它 违反 Bernstein 的 条 件 : 

PARALLEL DO I = 1, N 

A(T + 1) = ACI) + B(1) 

ENDDO 
KPR ARF ed eZee RARE AACA), (Ee Fuk 
代 中 从 A(I) 读 取 的 相同 单元 。 因 为 没有 说 明 调 度 ， 所 以 从 这 些 揭 代 的 第 二 个 选 代 中 得 到 的 结 
果 会 有 差异 ， 这 取决 于 在 迭代 1 中 是 否 先 发 生 存 和 信 ， 在 先 发 生存 入 情况 下 ， 它 将 产生 与 品行 循 
环 相同 的 值 ， 或 者 迭代 2 中 的 读 取 发 生 在 迭代 1 的 存 人 之 前 ， 在 这 种 情况 下 ， 结 果 将 是 不 同 的 。 
注意 ， 一 次 执行 与 另 一 次 执行 的 答案 可 能 不 同 。 

下 面 的 循环 表现 出 一 种 更 微妙 的 情况 : 

PARALLEL DO I = 1, N 

A(I-1) = ACI) + B(I) 

ENDDO 
这 里 存 人 的 一 个 单元 是 在 前 一 次 迭代 中 使 用 过 的 。 在 多 数 向 量 体 系 结构 中 ， 能 安全 地 向 量化 
这 种 循环 ， 但 是 并 行 化 编译 器 必须 更 加 小 心 。 例 如 ， 考 察 特 殊 的 揭 代 I=2 和 I=3。 按 串 行 模拟 ， 
在 迭代 2 中 发 生 的 取 A(2)， 总 是 先 于 在 近代 3 中 对 A(2) 的 存 和 人。 在 并 行 版 本 中 ， 取 数 可 能 在 存 
入 之 前 或 之 后 来 到 ， 导 致 循环 对 A 计算 出 不 同 的 值 。 

最 后 ， 考 察 一 个 违背 Bernstein 第 三 个 条 件 的 例子 : 

PARALLEL DO I = 1，N 

S = A(I) + B(I) 

ENDDO 
按 申 行 类 比 ， 循 环 执行 后 ，S 总 是 包含 相同 的 值 一 一 迭代 N 中 赋予 的 值 。 在 并 行 版 本 中 ， 和 任何 
返 代 都 可 能 是 最 后 一 次 执行 ， 赋 给 S 的 值 是 高 度 不 确定 的 。 

为 了 保证 正确 性 ， 现 代 并 行 化 编译 器 仅 当 它 能 验证 所 有 Bernstein 条 件 成 立时 ， 才 将 一 个 
顺序 循环 转换 成 一 个 并 行 循环 。 

由 异步 并 行 机 引入 的 第 二 个 新 间 题 是 并 行 粒度 。 因 为 异步 并 行进 程 有 很 大 的 启动 和 同步 
开销 ， 所 以 不 应 当 无 条 件 地 启动 一 个 并 行 循 环 ， 除 非 有 是 够 的 工作 补偿 增加 的 代价 。 与 此 对 
比 ， 向 量 部 件 上 的 同步 开销 相当 地 小 ， 以 至 允许 单 语句 循环 的 有 益 向 量化 。 因 此 ， 由 于 蜡 步 
处 理 器 的 高 代价 ， 程 序 员 应 当 力 求 将 并 行 循环 生成 的 同步 频率 最 小 化 ， 这 就 相当 于 增加 并 行 
ERORE. 

对 编译 器 来 说 ， 这 意味 着 必须 并 行 外 循环 而 不 是 内 循环 (在 向 量化 时 选择 的 是 内 循环 )， 
这 样 才能 使 处 理 器 必须 同步 的 次 数 最 小 化 。 类 似 地 ， 编 译 器 必须 能 并 行 化 带子 程序 和 函数 调 
用 的 循环 ， 因 为 子 程序 调用 是 计算 的 好 的 来 源 ， 并 且 任 何 具 有 大 量 计算 的 循环 几乎 都 包含 车 
干 调用 。 这 些 考 虑 使 得 并 行 化 编译 器 的 工作 要 比 向 量化 编译 器 更 困难 ， 因 为 它们 要 负责 分 析 
更 大 的 区 域 ， 包 括 跨越 多 个 过 程 的 区 域 。 
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异步 并 行 机 编译 器 面 对 的 最 后 挑战 是 由 访问 大 的 全 局 存储 器 引发 的 。 历 史上 某 些 最 重要 
的 并 行 系统 (如 Intel iPSC 860) 没有 全 局 共享 存储 器 。 替 代 的 是 每 个 处 理 器 仅 可 以 访问 和 它 
封装 在 一 起 的 存储 器 。 这 样 的 机 器 有 时 称 为 多 计算 机 ， 以 便 将 它们 与 多 处 理 器 (典型 地 共享 
存储 器 ) 区 分 开 。 现 今 的 SMP 机 群 (例如 IBM SP) 在 单 结 点 上 少量 处 理 器 之 间 共 享 存 储 器 ， 
但 不 能 直接 访问 不 同 结 点 上 的 存储 器 。 多 计算 机 和 SMP 机 群 的 并 行 化 编译 器 必须 决定 诸如 这 
样 的 问题 ， 哪 些 存 储 器 保存 哪些 变量 ， 以 及 何 时 要 求 通信 原 语 将 数据 移 到 一 个 不 拥有 它 的 计 
算 结 点 上 。 这 些 问题 是 很 难 回答 和 的， 第 14 章 将 讨论 它们 。 


1.6 存储 层次 结构 

存储 层次 结构 是 现代 体系 结构 的 一 个 复杂 方面 。 当 不 断 改 善 的 处 理 器 速度 比 存储 器 的 速 
度 快 时 ， 主 存 与 处 理 器 之 间 的 距离 变 得 更 大 了 (以 一 个 寄存 器 取 数 的 周期 数 度量 )。 二 十 年 
前 ， 从 存储 器 取 数 很 少 有 多 于 4 个 周期 的 ; 今天 ， 超 过 50 个 周期 是 很 普遍 的 。 在 并 行 机 上 ， 
这 种 趋势 特别 明显 ， 这 里 需要 复杂 的 内 部 连接 使 每 个 处 理 器 能 访问 所 有 的 存储 器 。 在 并 行 处 
理 器 上 ， 取 数 耗 时 可 能 高 达 几 百 个 机 器 局 期。 结果， 多 数 机 器 包括 这 样 一 些 功能 部 件 ， 能 用 
它们 来 改善 由 于 长 的 访 存 时 间 而 引起 的 性 能 问题 。 遗 憾 的 是 ， 处 理 器 速度 与 存储 器 速度 的 比 
率 不 可 能 很 快 得 到 改善 ， 因 为 总 的 存储 容量 也 在 增长 ， 技 术 转移 的 代价 太 昂贵 了 ， 必 须 认 真 
地 考虑 。 


1.6.1 存储 系统 概述 


有 两 个 通用 的 存储 系统 性 能 测度 : 

“时 延 是 从 存储 器 传送 单个 数据 元 素 需要 的 处 理 器 周期 数 。 

“带宽 是 每 个 周期 从 存储 器 系统 能 传送 到 处 理 器 的 数据 元 素 个 数 。 

对 分 析 性 能 来 说 ， 这 两 种 测度 都 是 重要 的 。 时 延 确定 处 理 器 从 主 存 取 需要 的 值 必须 等 待 的 时 
间 。 许 多 处 理 器 停顿 直到 完成 从 主 存 取 数 ; 在 这 些 处 理 器 上 ， 最 小 化 对 存储 器 的 请 求 量 是 重 
要 的 。 其 他 的 处 理 器 将 对 未 完成 的 存储 请 求 继续 工作 ,但 是 当 另 一 个 操作 需要 结果 时 ， 它 们 
必须 停顿 ; 在 那些 处 理 器 上， 重要 的 是 力求 在 取 数 和 使 用 它 的 结果 之 间 调 度 足 够 的 操作 以 保 
持 处 理 器 不 停 地 工作 。 带 宽 决定 了 每 个 周期 能 支持 多 少 个 存储 操作 ; 带宽 越 高 ， 一 次 能 取 到 
的 存储 值 就 越 多 。 . 

有 两 种 对 待 处 理 器 时 延 的 方法 : 避免 和 容许 。 训 免 时 延 涉及 到 这 样 的 策略 : 减少 计算 中 
遇 到 的 有 代表 性 的 时 延 。 存 储 层次 结构 是 避免 时 延 的 最 常用 机 制 。 如 果 多 次 被 引用 值 存 放 在 
快速 中 间 存 储 器 (如 像 处 理 器 的 寄存 器 或 高 速 缓存 ) 中 ， 那 么 第 一 次 引用 后 其 余 引 用 的 代价 
是 很 低 的 。 避 免 时 延 技术 也 改善 存储 带宽 的 有 效 利 用 。 

丐 太 容 肪 是 指 在 取 数据 时 做 一 些 延 迟 容忍 其 他 事情 。 使 用 显 式 预 取 或 无 阻塞 取 数 是 两 种 
容许 时 延 的 方法 。 另 一 个 有 趣 的 延迟 容忍 机 制 称 为 同步 多 线程 ,是 在 Cray/Tera MTA 上 使 用 的 。 
该 机 器 提供 快速 的 现场 切换 ， 使 每 个 周期 改变 一 新 的 执行 流 成 为 可 能 。 如 果 有 足够 的 流 是 现 
役 的 ， 并 且 控 制 以 一 种 轮 式 风格 连续 地 从 一 个 流 切 换 到 另 一 个 流 ， 那 么 对 每 个 流 来 说 将 出 现 
很 小 的 时 延 。 . 

本 书 中 ， 我 们 集中 于 用 存储 分 层 结构 达到 避免 时 延 和 采用 高 速 缓存 行 预 取 的 方法 实现 延 
迟 容忍 ， 因 为 它们 在 目前 的 实践 中 更 常用 。 虽 然 存 储 层 次 结构 的 意图 在 于 透明 地 以 层次 结构 





最 慢 层 的 代价 提供 最 快 层 的 性 能 ， 但 是 达到 这 个 目标 的 程度 取决 于 程序 如 何 有 效 地 重用 在 高 
速 缓存 或 寄存 器 中 存储 的 值 。 为 提供 更 多 的 重用 机 会 ， 重 构 程 序 往 往 能 导致 处 理 器 性 能 的 显 
著 改 善 。 
1.6.2 存储 层次 结构 的 编译 
虽然 存储 层次 结构 的 意图 在 于 克服 相对 较 差 的 系统 存储 性 能 ， 但 是 它们 并 不 总 是 很 成 功 
的 。 当 它们 失败 时 ， 其 结果 是 非常 差 的 性 能 ， 因 为 处 理 器 总 在 等 待 数据 。 对 具有 高 速 缓 存 存 
储 器 的 机 器 来 说 ， 在 小 的 测试 题目 (通常 是 在 购买 前 用 来 测试 机 器 的 ) 上 达到 高 性 能 是 很 普 
遍 的 ,但 是 当 问 题 增长 到 一 个 现实 的 规模 时 ， 性 能 就 很 差 。 这 通常 意味 着 较 小 问题 的 整个 数 
据 集 能 适合 装 人 高速 缓存 ， 但 是 大 问题 不 能 。 其 结果 ， 对 大 问题 来 说 ， 每 次 数据 访问 可 能 发 
生 高 速 缓存 不 命中 ， 但 对 较 小 的 数组 ， 每 个 数组 元 素 仅 不 命中 一 次 。 
用 一 个 简单 的 例子 来 说 明 此 问题 : 
DOI=1,N 
DOJ = 1, M 
ACI) = A(I) + B(J) 
ENDDO 
ENDDO 
RRE- GUL LATKEORE, BLSA-TFORRRER, HEARERS, e 
速 缓存 总 是 置换 最 近 最 少 使 用 的 (LRU) 块 。 虽 然 此 例 代 码 有 效 地 访问 数组 A 的 元 素 (每 个 元 
素 仅 导致 一 次 不 命中 )， 但 是 当 M 足 够 大 时 ， 对 B(J) 的 访问 总 是 不 命中 高 速 缓存 。 按 字 计 算 当 N 
的 增长 比 高 速 缓存 的 容量 大 时 ， 就 会 发 生性 能 由 好 到 坏 的 变化 。 因 为 B 的 一 个 元 素 在 使 用 8 的 
其 他 M-1 个 元 素 之 前 ， 不 能 被 重用 ， 当 M 足 够 大 时 ，B 的 元 素 有 机 会 在 I 循环 的 下 一 次 迭代 中 被 
重用 前 ，LRU 高 速 缓存 已 将 B 的 每 一 个 元 素 收回 了 。 
缓解 此 问题 的 一 个 方法 是 对 内 循环 分 段 ， 使 其 大 小 适合 高 速 缓存 ， 并 将 “ 按 段 步 进 ”的 
循环 交换 到 最 外 的 位 置 : 
DO Jd = 1, M, L 
DOI=1,N 
DO J = JJ, Jd + L-1 
A(T) = A(T) + B(J) 
ENDDO 


ENDDO 
ENDDO 


这 里 L 必 须 小 于 高 速 缓存 中 的 字数 。 第 二 个 例子 B 的 每 个 元 素 仅 有 一 次 不 命中 高 速 缓 存 ， 因 为 B 
的 一 个 元 素 留 在 高 速 缓存 中 直到 它 的 所 有 使 用 结束 。 代 价 是 对 A 的 引用 不 命中 的 次 数 会 增加 。 
然而 对 A 引 用 不 命中 的 总 数 近似 于 (NM)L， 相 反 ， 在 原 代码 中 引用 B 的 不 命中 为 NM。 

虽然 程序 员 能 对 他 们 的 源 程序 做 如 此 的 改变 ,但 这 样 会 导致 需 用 手工 的 方法 从 特定 机 器 
代码 重新 产生 每 台新 机 器 的 代码 。 我 们 相信 这 类 特定 机 器 优化 应 当 是 优化 编译 器 做 的 事情 。 
后 面 几 章 将 说 明 如 何 改 造 由 向 量化 和 并 行 化 编译 器 发 展 起 来 的 编译 器 技术 ， 用 于 优化 存储 层 
次 结构 的 使 用 。 


1.7 实例 研究 : 和 矩阵 乘法 
为 说 明 机 器 体系 结构 如 何 影响 为 获得 最 高 效率 应 对 特殊 计算 编写 程序 的 方法 ， 现 在 我 们 
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Be ARE TERE REGAL APA el E, AREF AID Ti S BERS ie BH t. 
计算 两 个 矩阵 A 和 8B 的 乘积 ， 用 如 下 所 示 的 典型 Fortran 循 亥 环 套 : 


ODO J= 1, N 
C(J, I) = 0.0 
DOK =1,N 
C(J, 1) = CCJ, I) + ACJ, K)*B(K, I) 
ENDDO 
ENDDO 
ENDDO 


HORIS ERA i ECHO A: POD RPE — THK it 
算 ， 内 循环 则 计算 该 元 素 ， 取 第 一 个 矩阵 的 行 和 第 二 个 矩阵 的 相应 列 作 内 积 。 在 一 台 标量 机 
上 (没有 对 并 行 处 理 或 向 量 操作 的 支持 )， 此 代码 使 硬件 得 到 极 好 的 使 用 。 因 为 内 循环 将 乘积 
累加 到 C(J,I) 中 。 在 循环 过 程 中 对 C 不 需要 访问 存储 器 〈 或 取 或 存 )。 只 要 中 间 结 果 放 在 一 标 
量 寄 存 器 中 ， 直 到 此 循环 完成 ， 然 后 将 结果 存 入 存储 器 中 。 当 呈现 这 样 的 代码 段 时 ， 一 个 好 
的 优化 编译 器 生成 的 代码 应 当 接 近 于 标量 机 器 可 能 有 的 最 优 性 能 ， 可 是 这 要 求 识别 数组 量 
C(J,I) 是 内 循环 的 不 变量 ， 并 且 能 分 配 到 一 个 寄存 器 。 

在 一 台 带 有 流水 线 浮 点 部 件 的 标量 机 器 上 ， 相 同 的 代码 很 可 能 不 会 有 同样 的 进展 。 此 代 
码 在 一 台 无 流水 线 的 标量 机 器 上 能 有 效 地 运行 ， 因 为 最 内 层 循环 一 次 迭 代 的 结果 立即 在 下 一 
次 迭代 中 被 使 用 ， 使 重用 寄存 器 中 的 结果 成 为 可 能 。 在 一 台 流 水 线 的 机 器 上 ， 每 次 迭代 在 可 
以 开始 做 自身 最 后 的 加 操作 之 前 ， 必 须 等 待 前 一 次 迭代 中 最 后 的 加 操作 是 有 效 的 ( 见 图 1-12)。 
克服 此 问题 的 一 个 办 法 是 在 相同 的 时 刻 让 一 个 外 循环 在 四 个 不 同 的 迭代 上 工作 ， 如 此 用 四 个 
无 关 的 计算 填 满 四 级 流水 线 ， 如 图 1-13 所 示 。 下 面 给 出 的 是 完成 此 项 工作 的 Fortran 代 码 (这 
里 假设 N 是 4 的 倍数 ): 

DOI=1,N 

DO J= 1, N, 4 

C(J, I) = 0.0 

c(J + 1, I) = 0.0 

C(J + 2, 1) = 0.0 

c(J + 3, I) = 0.0 

DOK =1,N 
C(J, 1) = C(J, 1) + ACJ, K)*B(K, I) 
C(d + 1, I) = Clo +1, 1) + ACJ + 1, K)*B(K, I) 
C(J + 2, 1) = Cd + 2, I) + ACI + 2, K)*B(K, I) 
C(J + 3, 1) = CCD + 3, I) + ACU + 3, K)*B(K, I) 


ENDDO 


ENDDO 
ENDDO 
A(1,1) * B(1,1) 





A(1,2) * B(2,1) 





图 1-12 矩阵 乘法 执行 流水 线 互 锁 
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C(4,1) + C(3,1) + C(2,1) + C(1,1) + 
A(1,2) * B(2,1) A(4,1) * B(1,1)|A(3,1) * B(1,1)|/A(2,1) * B(1,1)|A(1,1) * B(1,1) 


图 1-13 通过 外 循环 展开 使 流水 线 充满 


在 一 向 量 机 上 不 能 向 量化 标量 矩阵 乘法 的 内 循环 ， 因 为 计算 是 递归 的 一 一 即 需 要 此 标量 代 
码 的 交替 存 取 上 顺序， 以 保持 代码 的 含义 (因为 精度 的 要 求 、 假 设 加 法 的 重新 结合 是 禁止 的 )。 
在 一 台 像 Cray T90 的 向 量 机 器 (向量 长 度 为 64) 上 ， 我 们 需要 将 64 个 元 素 的 向 量 操作 移 至 内 
循环 ， 使 得 在 每 次 迭代 中 能 重用 T90 的 向 量 寄存 器 。 因 此 对 T90 来 说 ， 最 好 的 代码 看 上 去 像 下 
面 的 形式 : 
DOI=1,N 
DO J = 1,N, 64 
C(J:J + 63, I) = 0.0 
DOK =1,.N 
C(J:J + 63, 1) = C(J:J + 63, I) + A(J:J + 63, K)*B(K, I) 
ENDDO 
ENDDO 
ENDDO 


矩阵 乘法 的 这 种 形式 将 第 一 个 代码 的 标量 寄存 器 特征 扩展 为 Cray 的 向 量 寄存 器 。 现 在 Kk~ 
循环 执行 积 和 矩阵 一 个 向 量 段 需 要 的 所 有 计算 ; 其 结果 就 像 以 标量 形式 累加 单个 元 素 一 样 ， 向 
量 段 可 以 被 累加 到 一 个 向 量 寄存 器 中 。 l 
在 一 台 带 有 四 路 同时 发 射 、 四 个 浮 点 乘法 -加 法 器 和 四 级 流水 线 的 VLIW 机 器 上 ， 一 个 好 
的 代码 形式 可 能 是 
DOI=1,N,4 
DOJ=1,N,4 
C(J:d + 3, I) = 0.0 
C(d:J + 3, I +1) = 0.0 
C(J:J + 3, I+ 2) = 0.0 
C(J:0 + 3, I + 3) = 0.0 
DOK=1,N 
C(J:J + 3, 1) = C(J:0 +3, I) + A(yJ:y + 3, K)*B(K, I) 
C(J:J + 3, I+ 1) = CCI: + 3, I+ 1) + A(J:y + 3, K)*B(K, I+ 1) 
C(J:d + 3, 1 + 2) = CJ:J + 3, I + 2) + A(J:J + 3, K)*BCK, I + 2) 
C(J:J + 3, 1+ 3) = C(I: + 3, 1 + 3) + ACd:d + 3, K)*B(K, I + 3) 
ENDDO 
ENDDO 
ENDDO 


这 里 的 意图 是 ， 可 以 在 相同 的 周期 中 发 射 C((u:J+3,I) 的 四 个 乘法 -加 法 ， 随 后 是 索引 为 I+1 的 
那些 乘法 ~ 加 法 ， 等 等 。 这 种 代码 形式 将 使 四 个 浮 点 部 件 保持 忙碌 工作 。 

必须 考虑 到 对 称 式 多 处 理 器 与 向 量 机 使 用 的 不 同 。 因 为 向 量 循环 是 由 硬件 “同时 地 ” 执 
行 ， 它 们 必须 是 给 定 嵌 套 中 的 最 内 层 循环 。 另 一 方面 ， 并 行 循环 是 异步 执行 的 ， 因 此 要 求 将 
它们 移 到 最 外 层 位 置 上 ， 以 保证 有 足够 的 计算 去 补偿 启动 和 同步 的 开销 。 因 此 ， 在 像 Sun 
Starfire 那 样 SMP 机 器 上 ， 和 抑 阵 乘法 的 最 佳 形式 应 是 
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PARALLEL DO I = 1, N 
DOJ=1, N 
C(J, I) = 0.0 
DOK =1,N 
C(J, 1) = C(I, I) + ACI, K)*B(K, I) 
ENDDO 
ENDDO 
ENDDO 
在 这 种 形式 中 ， 每 个 处 理 器 能 独立 地 计算 积 矩 阵 的 一 列 ， 而 无 需 与 其 他 处 理 器 同步 ， 直 
至 完成 积 的 计算 。 这 种 形式 要 求 所 有 处 理 器 访问 整个 A 矩 阵 和 8 系 阵 的 一 列 ， 这 在 SMP 中 真正 
是 平常 的 事实 ， 其 中 存储 在 所 有 处 理 器 之 间 是 共享 的 。 
在 一 台 没 有 流水 线 浮 点 部 件 的 单 标量 处 理 器 上 ， 它 的 高 速 缓存 足以 装 下 多 于 3 产 个 浮 点 数 
而 不 发 生 高 速 缓存 冲突 (假设 高 速 缓存 是 全 相 联 的 ) ， 我 们 可 以 期 望 将 高 速 缓存 分 块 ， 用 于 一 
次 乘 一 个 子 矩 阵 。 在 下 面 的 代码 中 ， 假 设 L 能 整除 上 
DO II=1, N, L 
DO JJ = 1, N, L 
DO i = II, II + L-1 
DO j = JJ, JJ + L-1 
C(j, 1) = 0.0 
ENDDO 
ENDDO 
DO KK = 1, N, L 
DO i = II, II + L-1 
DO j = JJ, JJ + L-1 
DO k = KK, KK + L-1 
C(j, i) = C(j, i) + AGI, k)*B(k, i) 
ENDDO 
ENDDO 
ENDDO 
ENDDO 
ENDDO 
ENDDO 
这 里 的 想法 是 ， 第 一 个 循环 嵌 套 初始 化 C 的 一 个 L LR, BARRE RARE. 
通过 对 K 层 循环 分 块 ， 我 们 能 获得 A 的 L x 上 块 和 B 的 L x ! 块 的 重用 。 换 名 话说， 在 kk- 循 环 的 每 
次 选 代 中 ， 我 们 将 A 的 一 个 L x L 块 和 8 的 一 个 LxL 块 相 乘 ， 并 将 结果 加 到 C 的 一 个 LxL 块 中 。 
从 这 里 矩阵 乘法 的 研究 中 ， 有 两 个 重要 的 经 验 应 该 说 是 很 明显 的 : 
。 用 源 程序 的 并 行 性 的 显 式 表示 对 保证 并 行 硬件 的 优化 使 用 是 不 充分 的 。 六 种 类 型 机 器 的 
每 一 种 需要 并 行 性 的 不 同 表示 一 一 在 某 些 情况 下 ， 基 本 上 不 相同 。 此 外 ， 为 得 到 特定 机 
器 的 最 好 形式 ， 需 要 该 机 器 体系 结构 的 详细 知识 。 这 个 观察 结果 启示 我 们 必须 要 为 各 种 
体系 结构 定制 显 式 并 行程 序 ; 否则 当 从 一 台 机 器 向 另 一 台 机 器 移植 时 ， 它 们 会 丢失 效率 。 
。 尽 管 矩阵 乘法 的 最 好 形式 对 每 一 类 机 器 是 不 同 的 ， 但 是 ， 所 有 这 些 形 式 能 从 最 初 的 非 并 
行 源 程序 用 相对 简单 的 程序 变换 导出 。 通 过 简单 的 交换 循环 的 执行 顺序 就 能 获得 大 多 数 
程序 形式 。 
已 知 软 件 的 生存 期 在 增加 ， 而 硬件 的 生存 期 在 减少 ， 这 些 经 验 启 示 我 们 为 特定 机 器 体系 
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结构 定制 代码 最 好 留 给 编译 器 去 做 。 下 一 节 介 绍 为 能 实现 此 目标 而 设计 的 编译 器 技术 的 基本 [27] 
要 素 。 


1.8 先进 编译 技术 

编译 器 的 任务 就 是 将 人 们 容易 理解 的 计算 的 高 级 表示 转换 成 机 器 能 执行 的 低级 表示 。 人 
们 的 高 级 表示 很 少 打 算 去 适应 机 器 体系 结构 的 细节 ， 所 以 生硬 的 翻译 过 程 可 能 在 生成 的 机 器 
级 程序 中 引进 低 效率 。 编 译 器 优化 阶段 的 目的 就 是 要 消除 这 些 低 效率 ， 并 将 计算 的 表示 转换 
成 一 个 针对 特定 体系 结构 的 调整 好 的 表示 。 

为 特定 体系 结构 定制 程序 ， 是 编译 器 应 负 的 责任 ， 其 基本 原理 的 自然 含义 是 让 编译 器 负 
责 自动 转换 代码 去 利用 并 行 性 。 在 这 种 观点 下 ， 把 源 程 序 当成 一 份 “ 规 格 说 明 ”， 它 定义 程序 
计算 的 结果 。 编 译 器 用 任何 有 意义 的 方法 自由 地 变换 程序 ， 只 要 求 变换 后 的 程序 计算 出 与 原 
规格 说 明 相同 的 结果 。 尽 管 这 种 观点 看 起 来 似乎 很 自然 ， 但是， 经 常会 受到 怀疑 ， 因 为 需要 
彻底 而 完善 的 变换 去 挖 据 并 行 性 。 例 如 ， 和 矩阵 乘法 需要 循环 交换 、 循 环 分 烈 、 宾 环 分 布 、 疝 
量化 和 并 行 化 ， 从 而 达到 各 种 并 行 体系 结构 的 优化 结果 。 在 传统 的 优化 器 中 往往 找 不 到 这 些 
变换 。 

本 书 介绍 在 编译 器 方法 背后 的 理论 和 实践 理念 ， 这 种 编译 方法 是 基于 积极 的 变换 串 行规 
格 说 明 的 范例 。 我 们 主要 集中 精力 于 揭示 Fortran 77 程 序 中 并 行 性 的 方法 ， 因 为 Fortran 是 当今 
科学 计算 的 通用 算法 语言 。 我 们 将 不 争论 这 种 方法 与 从 并 行 计 算出 发 的 方法 相 比 的 价值 问 
题 这 两 种 方法 在 它们 的 推崇 者 之 间 有 很 大 的 和 争议。 然而， 我 们 将 说 明 从 一 串 行 语言 出 发 有 
非常 实际 的 优点 ， 那 就 是 它 把 大 量 现存 的 程序 作为 目标 。 另 外 ， 本 书 将 演绎 串 行 程序 中 揭示 
并 行 性 使 用 的 理论 也 同样 能 应 用 到 优化 显 式 并 行程 序 中 去 。 


1.8.1 依赖 

当 程 序 员 用 串 行程 序 设计 语言 编写 应 用 程序 时 ， 他 希望 程序 计算 的 结果 ， 首 先是 从 第 一 
个 语句 得 到 的 ， 然 后 是 从 第 二 个 语句 得 到 的 ， 等 等 ， 其 中 只 有 分 支 语句 和 循环 语句 这 样 的 控 
制 流 结构 属于 例外 情况 。 实 质 上 ， 程 序 员 已 说 明了 他 希望 计算 机 执行 操作 的 具体 顺序 。 显 然 ， 
直接 从 这 样 的 规格 说 明 中 利用 并 行 性 是 不 可 能 的 ， 因 为 并 行 化 要 改变 操作 的 顺序 。 [28| 

先进 编译 器 必然 会 遇 到 的 基本 挑战 是 ， 确 定 何 时 一 个 与 程序 员 说 明 的 顺序 不 同 的 执行 顺 
序 (包括 并 行 执行 或 向 量 执行 ) 总 会 计算 出 相同 的 结果 。 换 言 之 ， 串 行 语言 引入 的 约束 对 维 
持 计算 的 含义 并 不 是 关键 性 的 ; 变换 这 样 的 程序 为 并 行 形式 的 关键 是 ， 找 到 保证 变换 后 的 程 
序 对 每 次 输入 将 产生 正确 结果 所 必需 的 最 少 的 约束 。 如 果 能 精确 地 刻画 这 些 约束 ， 那 么 就 能 
使 编译 器 用 不 改变 这 些 约束 的 任何 方法 重 排 程 序 的 执行 顺序 。 

在 本 书 中 ， 我 们 研究 一 组 称 为 依赖 的 约束 ， 它 们 是 以 保证 程序 变换 不 改变 用 计算 结果 表 
示 的 程序 含义 。 这 些 约 东 不 是 精确 的 ;有些 情况 下 可 以 违背 它们 而 不 会 改变 程序 的 含义 。 然 
而 ， 它 们 抓 住 保持 命令 式 语 言 中 正确 性 的 一 个 重要 策略 : 它们 保持 程序 中 对 每 一 存储 单元 取 
数 和 存 数 的 相对 顺序 。( 它们 不 保持 相同 单元 读数 的 相对 顺序 ， 不 过 这 不 影响 程序 的 含义 。) 
我 们 会 看 到 能 够 扩展 依赖 概念 来 保持 控制 判定 对 其 后 操作 的 影响 。 

特别 地 ， 依 赖 是 程序 中 语句 上 的 关系 。 语 句 偶 〈S$:,$:》 在 此 关系 中 ， 如 果 按 任何 有 效 的 
.程序 重 排 的 顺序 ( 倘若 维持 了 访 存 的 序 ) ，$: 必 定 在 Si 之 后 执行 。 

为 了 说 明 依赖 概念 ， 考 虑 下 面 的 简单 代码 段 : 
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Sı PI = 3.14159 | 

S: R=5 

S; AREA, = PI*R**2 

此 代码 段 的 结果 定义 为 取 执 行 顺序 《$1,52,$3) 时 发 生 的 那些 结果 。 然 而 ， 没 有 理由 要 求 
代码 段 中 Sz 在 $; 之 后 执行 ;事实 上 ， 执 行 顺 序 《$2,$1, $3 产生 与 原 序 完全 相同 的 结果 〔 即 变 
量 AREA 的 值 相同 )。 与 之 不 同 的 是 ，S; 的 执行 时 刻 是 要 紧 的 ; 如 果 它 在 S; 或 :之 前 执行 ， 会 计 
算出 不 正确 的 AREA 值 ， 因 为 尚未 设置 输入 操作 对 象 的 值 。 根 据 依赖 ， 语 句 偶 (8,52) A (Sz, 
$s》 是 在 此 代码 段 的 依赖 关系 中 ,而 《$1, $52) 不 在 。 

直线 型 代码 中 的 依赖 是 一 个 容易 理解 的 概念 。 不 过 ， 仅 检测 直线 代码 不 能 保证 并 行 性 的 
有 效 使 用 。 为 了 达到 高 性 能 ， 我 们 必须 将 依赖 概念 扩展 到 程序 最 频繁 执行 的 部 分 ， 使 它 有 可 
能 处 理 循环 和 数组 。 下 面 的 例子 说 明 由 这 些 扩展 引入 的 复杂 性 : 

dbo r=1,N 
Si ACI) = 8B(I) + 1 
S: B(I + 1) = A(I)-5 
ENDDO 

此 循环 呈现 出 依赖 《$1, $s) ， 因 为 在 每 次 选 代 中 计算 的 A 值 立即 在 S: 中 使 用 ， 而 依赖 〈S，， 
Si) 是 因为 除了 第 一 次 使 用 B 值 之 外 ， 每 次 循环 迄 代 使 用 前 一 次 迭代 中 计算 的 B 值 。 检 测 这 些 
依赖 是 相当 困难 的 ， 因 为 不 同 的 循环 选 代 涉及 到 不 同 的 数组 元 素 。 然 而 ， 这 还 仅仅 是 问题 的 
一 部 分 ; 依赖 图 中 的 环 (指明 此 循环 的 周期 性 质 ) 使 利用 并 行 性 的 调度 算法 复杂 化 。 

循环 和 数组 仅仅 是 编译 器 必须 学 会 去 处 理 的 一 些 结构 。IF 语 名 也 引入 了 问题 。 事 实 上 ， 
根据 仅 在 运行 时 得 到 的 有 效 值 可 能 条 件 地 执行 这 类 语句 ， 在 变换 过 程 中 这 是 一 个 独特 的 复杂 
问题 。 关 于 这 一 点 ， 一 个 程序 的 依赖 可 能 有 条 件 地 遵从 某 些 关键 变量 的 值 ( 仅 在 运行 时 可 以 
使 用 的 信息 )。 

本 书 前 面 过 半 部 分 专注 于 研究 依赖 性 理论 和 在 程序 中 精确 地 构造 它们 的 方法 。 


1.8.2 变换 . 
正如 迄今 所 描述 的 ， 依 赖 用 于 挖掘 程序 中 隐 含 的 并 行 性 仅仅 是 一 种 被 动 的 导向 。 然 而 它 
远 非 如 此 。 因 为 依赖 说 明 可 以 如 何 重 排 程序 的 执行 顺序 ， 依 赖 还 能 构成 如 有 力 的 变换 系统 的 
基础 ， 增 强 程序 中 并 行 性 的 显现 。 例 如 ， 简 单 地 交换 两 个 数组 
DOI=1,N 
T = ACI) 
A(T) = B(I) 
B(I) = T 
ENDDO 
不 能 直接 向 量化 ， 因 为 标量 临时 变量 T 构 成 向 量 计算 的 瓶颈 : 正如 说 明 的 那样 ， 程 序 中 每 次 仅 
能 传输 一 个 元 素 。 如 果 将 标量 暂 存 扩展 为 一 个 向 量 暂 存 
DOI=1,N 
T(T) = ACI) 
ACI) = B(I) 
B(I) = T(I) 
ENDDO 


那么 循环 就 能 直接 向 量化 。 通 过 检查 程序 的 依赖 性 能 确定 这 种 变换 的 合法 性 。( 这 种 特殊 的 变 
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换 称 为 标量 扩展 ， 在 第 5 章 中 讨论 。) 

第 5S、6 章 以 及 本 书后 半 部 分 讨论 依赖 对 程序 变换 支持 的 应 用 。 为 了 用 例子 说 明 程序 变换 
的 概念 ， 必 须要 有 一 种 语言 能 显示 这 些 例子 。 因 为 当今 在 并 行 和 向 量 计算 机 上 Fortran 仍 是 最 
有 份量 的 使 用 语言 ， 最 合理 的 语言 选择 是 Fortran 的 扩展 版 本 ， 它 具有 向 量 和 并 行 操作 。 为 此 ， 
我 们 将 使 用 增加 并 行 循环 语句 的 Fortran 90. Mts A Fortran 90 特 点 的 简单 介绍 。 


1.9 小 结 

这 一 章 介 绍 了 编译 高 级 语言 的 基本 问题 ， 即 产生 的 代码 在 高 性 能 计算 机 系统 上 达到 可 接 
受 的 性 能 。 本 章 概括 了 重要 的 体系 结构 特色 , 包括 流水 线 、 向 量 并 行 性 、VLIW 和 超标 最 处 理 、 
异步 并 行 性 以 及 存储 层次 结构 。 对 每 一 特色 ， 我 们 介绍 了 那些 有 助 于 改善 性 能 的 优化 。 其 中 
的 策略 包括 指令 调度 、 自 动向 量化 、 自 动 并 行 化 以 及 存储 层次 结构 中 改善 重用 的 循环 变换 。 

实施 这 些 变换 的 编译 系统 的 工作 是 : 为 维持 计算 的 结果 ， 确 定 总 体 排 序 中 哪些 是 必须 遵 
守 的 执行 顺序 。 这 样 的 执行 序 是 在 称 为 依赖 的 关系 中 捕 所 到 的 一 一 我 们 说 语句 $2 依赖 于 语句 51， 
如 果 在 捉 行 程序 的 执行 中 5 跟随 在 $1 之 后 ， 并 且 在 任何 变换 后 的 程序 中 ，5z 必 须 在 $1 之 后 ， 这 
样 可 计算 出 相同 的 结果 。 按 这 个 定义 ， 编 译 器 可 以 自由 地 重 排 语句 实例 的 顺序 ， 只 要 不 改变 
涉及 到 依赖 中 任何 两 个 语句 的 相对 顺序 。 


1.10 实例 研究 

本 书 的 每 一 章 中 包含 一 节 “ 实 例 研究 ”"， 讨 论 作者 在 本 章 中 描述 的 概念 的 实际 实现 方面 的 
经 验 。 这 些 经 验 多 数 集中 于 两 个 主要 的 系统 : PFC 和 Ardent Titan 编 译 器 。 

PFC 系 统 是 由 两 位 作者 在 Rice 大 学 开发 的 ， 项 目 来 自 IBM 的 一 个 重点 研究 合同 。 最 初 PFC 
专注 于 向 量化 ， 它 作为 IBM 后 来 的 一 个 向 量化 编译 器 的 模型 。PFC 是 在 依赖 和 程序 变换 两 个 挛 
生 概 念 上 构建 的 ， 并 作为 一 些 研究 的 框架 ， 这 些 研究 提出 的 题目 除了 向 量化 以 外 ， 还 包括 并 
行 化 、 存 储 层 次 结构 管理 以 及 过 程 间 分 析 和 优化 。 它 是 Rice 大 学 一 系列 相关 研究 系统 的 起 点 ， 
其 中 包括 PTOOL (一 个 程序 并 行 化 工具 ， 显 示 源 代码 中 直接 妨碍 并 行 性 的 依赖 (种 类 ))， 
ParaScope (一 个 并 行程 序 设计 环境 )， 以 及 D 系 统 ( 高 性 能 Fortran (HPF)) 的 一 个 编译 器 和 
编程 环境 。 

Alen 离 开 Rice 大 学 后 ， 加 入 了 Ardent 计 算 机 公司 ， 领 导 他 们 的 编译 器 开发 工作 。 在 那里 ， 
他 构造 了 一 个 商用 性 的 编译 器 ， 用 于 Titan 计 算 机 系列 。Titan 编 译 器 使 用 了 许多 在 PFC 中 用 过 
的 相同 算法 。 可 是 ，PFC 主 要 是 一 个 源码 到 源码 的 翻译 器 ， 而 Titan 编 译 器 为 一 台 真 实 计算 机 
产生 机 器 语言 代码 ， 该 计算 机 具有 许多 独特 的 和 挑战 性 的 特色 。 另 外 ， 该 编译 器 必须 处 理 C 和 
Fortran， 它 提出 的 一 系列 特殊 挑战 在 第 12 章 讨论 。 

这 两 个 系统 提供 丰富 的 经 验 来 源 ， 我 们 希望 举例 阐明 对 基本 原理 的 讨论 ， 在 每 一 章 的 主 
要 部 分 中 可 以 找到 这 些 讨论 。 


1.11 历史 评述 与 参考 文献 

研发 作为 积极 程序 变换 基础 的 依赖 性 ， 是 许多 研究 工作 努力 的 结果 。 在 Massachusetts 
Computer Associates 所 作 的 自动 向 量化 和 并 行 化 ， 即 后 来 称 之 为 Compass 的 传世 之 作 ， 在 历 
史上 具有 特别 重要 的 意义 。20 世 纪 70 年 代 早期 ，Compass 为 Iliac IV 建 立 了 一 个 变换 工具 ， 称 
为 Parallelizer。 描 述 Parallelizer 的 主要 论文 包括 由 Lamport 撰 写 的 理论 和 技术 报告 [195，196] ， 
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以 及 由 Leveman 撰 写 的 优雅 文章 ， 他 推崇 有 关 优 化 的 一 个 原理 性 方法 [204]。 

在 David Kuck 指 导 下 Illinois 大 学 最 先 提出 最 有 影响 的 自动 程序 变换 理念 。Illinois 大 学 在 
Iliac 系 列 计算 机 非常 时 的 发 展 阶段 就 已 经 涉及 到 并 行 性 ; 20 世 纪 70 年 代 中 期 ，Parafrase 项 目 
一 开始 就 把 研究 方向 对 准 了 自动 程序 变换 。 从 项 目的 名 称 就 能 猜测 到 ，Parafrase 试 图 将 串 行 
程序 重新 表述 为 等 价 的 并 行程 序 和 向 量程 序 。 此 项 目 中 产生 了 许多 重要 的 文章 ， 其 中 有 关于 
依赖 测试 [32，190，283]、 循 环 交换 [280]、 辅 助 变换 [285，259] 和 低层 并 行 性 [219] 的 文章 。 
Parafrase 项 目的 自然 产物 是 Kuck and Associates 公 司 ， 这 是 在 市 场 销售 基于 依赖 的 先进 程序 变 
换 系 统 的 一 家 商业 企业 。 

20 世 纪 70 年 代 后 期 ， 在 Ken Kennedy 指 导 下 ，Rice 大 学 开始 了 并 行 Fortran 转 换 器 (PFC) 项 
目 [20]。 最 初 该 项 目 集中 于 扩展 Parafrase， 增 加 新 的 能 力 。 然 而 ， 由 于 在 内 部 数据 表示 上 受到 
限制 ， 因 此 搁 下 了 Parafrase 方 案 ， 并 实现 了 一 个 完整 的 新 系统 。PFC 的 进步 包括 一 个 依赖 的 明 
晰 分 类 ， 弄 清楚 了 能 应 用 依赖 的 许多 领域 ， 对 许多 变换 有 效 的 算法 (特别 是 向 量 代码 生成 和 
循环 交换 )， 处 理 程序 内 条 件 语句 的 方法 ， 以 及 增强 并 行 性 的 新 变换 [16，21 ，23]。PFC 项 目 
本 身 作 为 IBM 3090 向 量 功能 [243] 和 Ardent Titan 编 译 器 [17] 的 向 量化 编译 器 的 原型 ， 构 成 PFC 
基础 的 理论 也 是 Convex 向 量化 编译 器 的 基础 。 
习题 

1.1 为 表达 式 X*Y*+2+V#Wy3 产 生 DLX 人 代码。 假设 取 数 需要 3 个 周期 ， 立 即 取 数 一 个 周期 ， 
浮 点 加 法 一 个 周期 ， 浮 点 乘法 2 个 周期 ， 为 此 代码 找 出 最 佳 调度 。 假 设 寄存 器 数量 是 你 所 需要 
的 ,但 是 只 有 一 个 load-store 部 件 和 一 个 浮 点 算术 部 件 。 所 有 指令 是 流水 线 的 ， 但 机 器 每 个 周 
期 至 多 能 发 射 一 条 指令 。 你 使 用 什么 策略 寻找 最 佳 调 度 ? 

1.2 在 下 面 的 假设 下 重 做 习题 1.1: 每 个 时 钟 周期 你 能 发 射 两 条 指令 ， 有 两 个 load-store 部 
件 和 两 个 浮 点 算术 部 件 。 

1.3 根据 本 章 的 N x N 和 矩阵 乘法 例子 ， 产 生 一 个 在 有 32 个 处 理 器 的 T90 这 样 的 并 行 -向 量 机 
上 能 顺利 执行 的 版 本 。 

1.4 产生 一 个 N x N 和 矩阵 乘法 版 本 ， 它 能 在 一 台 对 称 多 处 理 器 上 上 顺利 执行 ， 系 统 中 每 个 处 
理 器 有 一 个 非 流水 线 的 执行 部 件 和 一 个 全 相 联 的 高 速 缓存 ， 它 的 容量 足以 保存 略 多 于 3 产 个 矩 
阵 元 素 ， 这 里 上 能 整除 N。 

1.5 你 可 以 利用 任何 共享 存储 高 性 能 计算 机 系统 ， 用 Fortran 或 者 C 实 现 一 个 1000 x 10004 
阵 乘法 版 本 ， 要 达到 最 高 可 能 的 性 能 。 特 别 要 注意 存储 层次 结构 ， 尝 试 找 出 正确 的 高 速 缓存 


块 尺 寸 。 








依赖 : 理论 与 实践 


2.1 引言 

正如 我 们 在 第 1 章 中 已 学 到 的 ， 对 于 程序 设计 语言 被 接受 ， 优 化 有 重要 的 作用 一 一 如 果 优 
化 器 做 不 好 此 项 工作 ， 那 么 无 人 愿意 使 用 这 种 语言 。 其 结果 导致 优化 技术 变 得 十 分 复杂 。 然 
而 优化 技术 的 大 多 数 研发 工作 集中 在 标量 机 上 。 在 这 类 机 器 上 ， 主 要 的 优化 是 寄存 器 分 配 、 
指令 调度 和 减少 数组 地 址 计算 的 开销 。 

在 优化 过 程 中 并 行 性 引进 了 更 多 的 复杂 性 。 对 并 行 计 算 机 来 说 ， 主 要 的 优化 变 成 了 在 串 
行 代码 中 寻找 并 行 性 ， 以 及 将 并 行 操作 定制 到 目标 机 ， 其 中 包括 它 的 存储 层次 结构 。 探 寻 有 
用 的 并 行 性 的 主要 策略 是 寻求 数据 分 解 ， 对 分 解 的 数据 ， 并 行 任务 在 数据 数组 的 不 同 元 素 上 
执行 类 似 的 操作 。 在 Fortran 中 ， 此 策 赂 自然 地 映射 到 并 行 00 循 环 的 不 同 选 代 上 。 对 科学 计算 
问题 来 说 数据 分 解 是 有 效 的 , 因为 当 问 题 的 规模 增 大 时 ， 分 解 是 可 扩展 的 ， 所 以 产生 了 有 效 的 
并 行 性 。 

假定 将 目标 集中 在 Fortran 的 循环 选 代 上 ， 一 个 先进 的 编译 器 必须 能 够 确定 每 一 对 选 代 是 
否 满足 Bernstein 条 件 [40] ( 见 1.5.2 节 )。 检 查 循环 迭代 是 相当 复杂 的 ， 事 实 上 在 数据 ~ 并 行 循 
环 内 ， 多 数 代码 会 引用 下 标 数 组 变量 ， 这 就 增加 了 复杂 性 。 因 此 ， 编 译 器 必须 要 具有 分 析 这 
种 引用 的 能 力 ， 判 定 两 个 不 同 的 迭代 是 否 访问 相同 的 存储 单元 。 已 知 一 个 数组 包含 多 个 元 素 ， 
何 时 两 个 迭代 或 语句 引用 相同 数组 的 不 同 元 素 这 件 事 ， 并 非 总 是 明显 的 。 由 于 这 种 增加 的 复 
杂 性 ， 第 1 章 介绍 的 依赖 的 简单 定义 纵然 雅致 而 且 易 于 理解 ， 在 出 现 循 环 和 数组 引用 的 场合 是 
无 效 的 。 

本 章 的 目的 是 详尽 阐述 依赖 的 定义 和 性 质 ， 作 为 一 个 受 限 的 系统 ， 它 维持 对 循环 嵌 套 有 
关 的 存储 的 数据 访问 顺序 。 这 一 章 还 将 建立 若干 基本 结果 ， 它 们 构成 后 面 几 章 的 基础 。 一 个 
主要 目标 将 是 确立 依赖 对 自动 并 行 化 和 向 量化 的 适用 范围 。 为 说 明 依 赖 的 能 力 ， 用 一 个 向 量 
化 算法 结束 本 章 ， 该 算法 是 几 个 商用 编译 器 的 核心 。 


2.2 依赖 及 其 性 质 
1.8 节 勾画 的 基本 方法 ， 在 本 书 中 用 来 显露 并 行 性 。 这 种 方法 的 基础 是 依赖 关系 ， 或 依赖 
图 ， 对 一 个 给 定 的 串 行程 序 ， 依 赖 图 包含 语句 到 语句 的 执行 顺序 集 ， 能 用 它 指导 选择 和 应 用 
某 些 变换 ， 这 些 变换 保持 程序 的 含义 。 图 中 每 一 对 语句 称 为 一 个 依赖 。 给 出 程序 的 一 个 正确 
的 依赖 图 ， 任 何 基于 序 的 优化 ， 只 要 它 不 改变 程序 的 依赖 关系 ， 将 保证 不 改变 程序 的 结果 。 
依赖 代表 对 程序 变换 的 两 类 不 同 约束 。 首 先 ， 设 计 某 些 约束 保证 数据 按 正 确 的 顺序 生产 
和 消费 。 由 这 些 约束 产生 的 依赖 称 为 数据 依 闵 。 回 顾 第 1 章 的 例子 


Si PI = 3.14 
Sz R=5.0 
S; AREA = PI*R**2 
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语句 S: 不 能 移 到 $; 或 S: 前 ， 避 免 对 变量 PI 和 R 产 生 可 能 不 正确 的 值 。 为 了 阻止 这 么 做 ， 我 们 将 
构造 从 语句 S; 和 S: 到 语句 $: 的 数据 依赖 。S; 和 3$: 之 间 不 需要 执行 约束 ， 因 为 执行 顺序 3:，S:，3$s 
将 正确 地 产生 PI 的 值 ， 它 与 执行 顺序 5;:，52，5; 的 值 相同 。 

另 一 类 引发 依赖 的 约束 是 控制 流 。 例 如 ， 考 虑 代码 


S; IF(T.NE.0.0) GOTO S; 
Sz A = A/T 
S; CONTINUE 


在 正确 变换 后 的 程序 中 ，5; 不 能 在 $1 之 前 执行 ， 因 为 5; 的 执行 是 以 5 中 的 分 支 执 行为 条 件 。 在 
$1 前 执行 $5 可 能 引发 以 0 做 除数 的 异常 ， 这 在 原始 版 本 中 是 不 可 能 发 生 的 。 由 控制 流 引发 的 依 
赖 称 为 控制 依赖 。 

当 正 确 地 并 行 化 一 个 程序 时 ， 虽 然 必 须 考虑 数据 依赖 和 控制 依赖 ， 但 是 下 面 儿 章 将 专门 
集中 于 数据 依赖 ， 这 种 依赖 对 于 理解 和 说 明 多 数 重要 的 原理 更 为 简单 。 第 7 章 将 说 明 如 何 把 这 
些 原理 用 于 控制 依赖 ， 或 通过 使 用 称 之 为 “if 转换 ”的 技术 将 它们 转换 成 数据 依赖 ， 或 者 将 控 
制 依赖 纳入 其 扩展 的 算法 之 中 。 

我 们 回 到 数据 依赖 ， 如 果 保 证 以 正确 的 顺序 生产 和 消费 数据 ， 则 我 们 必须 要 保证 没有 交 
换 对 相同 单元 的 load 和 store 操 作 ; 否则 load 操 作 可 能 得 到 错误 的 值 。 此 外 ， 我 们 还 必须 要 保证 
按 正确 的 顺序 做 两 次 store 操 作 ， 使 随后 的 Store 操作 会 得 到 正确 的 值 。 由 这 些 概念 地 形式 化 引 
出 下 面 的 数据 依赖 定义 。 

定义 2.1 从 语句 Si 到 语句 S: 存 在 数据 依赖 (语句 S: 依 赖 于 语句 S;)， 当 且 仅 当 (1) 

两 个 语句 访问 相同 的 存储 单元 ， 并 且 其 中 至 少 有 一 个 语 旬 存 人 此 单元 ，(2) 存在 一 

条 从 51 到 5; 的 可 能 的 运行 时 执行 路 径 。 


下 面 几 小 节 将 讨论 依赖 的 各 种 性 质 ， 据 此 可 对 它们 进行 分 类 。 这 些 性 质 对 理解 本 书后 面 
介绍 的 算法 是 十 分 重要 的 。 


2.2.1 存 - 取 分 类 

按照 存 - 取 顺 序 的 表示 ， 在 程序 中 可 能 有 发 生 依赖 的 三 种 方式 。 

1. 真 依赖 。 第 一 个 语句 对 一 个 单元 存 入 数据 而 后 由 第 二 个 语句 读 出 : 

SX = ... 

Se = X 
此 依赖 保证 第 二 个 语句 接收 到 由 第 一 个 语句 计算 的 值 。 这 种 类 型 的 依赖 也 称 为 流 依赖 ， 并 用 
S$;5S: 表 示 ( 读 作 S; 依 赖 于 S:)。 为 用 图 形 显示 依赖 ， 通 常 是 画 一 条 边 表示 从 先 执行 的 语句 〈 源 
点 ) 流向 稍 后 执行 的 语句 ( 汇 点 )。 \ 

2. 反 依赖 。 第 一 个 语句 从 一 个 单元 读 出 数据 ， 随 后 第 二 个 语句 对 此 单元 存 人 数据 : 

S = 

S X = on. 
这 种 依赖 阻碍 S; 和 S: 的 交换 ， 交 换 可 能 导致 Si 不 正确 地 使 用 5$: 计 算 的 值 。 本 质 上 ， 此 种 依赖 的 
出 现 阻 碍 程序 变换 ， 因 为 它 会 引入 在 原始 程序 中 不 存在 的 一 个 新 的 真 依赖 。 这 样 的 反 依赖 用 
$18-1'5, 表 示 。 在 某 些 教科 书 中 ， 反 依赖 也 表示 成 15 Sz。 
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3. 输 出 依赖 。 两 个 语句 对 同一 单元 写 人 数据 : 


S X = .. 

S: X = ... 

这 种 依赖 阻碍 交换 ， 因 为 交换 可 能 引起 后 面 的 语句 读 人 错误 的 值 。 例 如 ， 在 代码 段 
Ss è X= 1 

S: ， 

S X = 2 

S, W = X*Y 


中 ， 不 允许 将 语句 S; 移 到 S: 之 前 ， 以 免 在 St 中 Y 不 正确 地 乘 1 而 不 是 乘 2。 这 类 依赖 称 为 输出 依 
i. HERAS S- 

EEFT. PORE HS BRA a HE A, EFEN. ARR 
与 RAW ( 写 后 读 ) 相关 相同 ; 反 依赖 等 价 于 WAR( 读 后 写 ) 相关 ; 输出 依赖 是 一 种 WAW ( 写 后 写 ) 
相关 [145]。 


2.2.2 循环 内 的 依赖 
将 依赖 概念 扩展 到 循环 ， 需 要 某 种 方法 使 循环 迭代 过 程 中 执行 的 语句 参数 化 。 例 如 ， 在 


DOI=1,N 
Sı ACI + 1) = ACI) + BCI) 
ENDDO 


这 样 简单 的 循环 嵌 套 中 ， 任 何 循环 迭代 的 语句 Si 依赖 于 自身 前 一 次 迭代 的 实例 。 在 这 种 情况 
下 ， 说 “语句 Si 依赖 于 自己 ”是 真 依赖 ， 但 是 不 精确 。 例 如 ， 对 单 索 引 做 简单 的 改变 能 导致 
此 语句 依赖 于 两 次 选 代 前 的 实例 : 
DOI=1,N 
Sı AI+2)= A(T) + B(I) 
ENDDO 


FR He FEA Se) IA YS ca i EF BO a TR SE Ze as AE RH SL Be Be IL. 
Ai, Beane — Pe, Re RR Ne, TR EEE. TB 
单 循环 

DOI=1,N 

ENDDO 
迭代 号 正好 等 于 循环 索引 值 ， 第 一 次 迭代 的 迭代 号 等 于 1， 第 二 次 迭代 的 迭代 号 等 于 2， 如 此 
等 等 。 然 而 ， 在 循环 


DI=L,uU,S5 


ENDDO 
中 ， 当 I 等 于 [时 ， 和 迭代 号 是 1， 当 I 等 于 I+$ 时 ， 返 代号 是 2， 如 此 等 等 ” 。 

在 某 些 情况 下 ,使 用 正规 化 的 迭代 编号 方案 是 更 合适 的 ， 其 中 迭代 从 1 开始 以 增 量 1 步 进 
到 某 个 上 界 。 下 面 的 定义 对 这 些 概念 予以 形式 化 : 


日 、 某 些 教材 中 定义 沈 代 号 等 于 循环 索引 1。 然而 ， 当 步 长 是 负 值 时 ， 会 引起 问题 。 在 本 书 中 我 们 将 使 用 正规 
化 的 定义， 除非 另 有 注释 。 在 正规 化 循环 中 ， 两 者 没有 差别 。 


[38] 





[39] 
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定义 2.2 ”对 任意 一 个 循环 ， 其 中 循环 索引 /以 步 长 5 从 L 步 进 到 U， 一 个 特定 迭代 
的 (正规 化 ) 选 代号 ;等 于 值 (1 一 L+ 8183， 其 中 /是 该 选 代 中 索引 变量 的 值 。 


在 一 循环 嵌 套 中 ， 一 个 特定 循环 的 坊 套 层 等 于 包围 它 的 循环 个 数 加 1。 循 环 从 最 外 层 到 最 
内 层 编 号 ， 开 始 层 为 1。 这 样 得 到 的 是 多 重 循环 中 克 代 号 的 自然 定义 。 
定义 2.3 ”给 定 " 个 循环 的 嵌 套 ， 最 内 层 循环 的 一 个 特定 揭 代 的 和 迭代 向 量 j 是 一 个 
整 型 癌 量 ， 它 包含 按 妊 套 层 顺序 的 每 层 循环 的 碗 代号 。 换 句 话 说 ， 检 代 向 量 为 
i= {i in, s in} (2-1) 
HP, (1<k<n) RRERE Ek ERER. 


用 特定 执行 向 量 参数 化 的 一 个 语句 ， 表 示 循 环 归纳 变量 具有 此 执行 向 量 中 的 值 时 被 执行 
语句 的 实例 。 例 如 ， 在 
DOI=1,2 
DOJ=1, 2 
S 
ENDDO 
ENDDO 


HSE(2, DIAREE 2K RERE ARRA RERESIK. eA 
来 说 ， 所 有 可 能 的 迭代 向 量 集合 是 一 个 迭代 空间 。 上 例 中 5 的 迭代 空间 是 {(1,1),(1,2)， 
(2,1),(2,2)}. 

ARR, KARITO BE, aR SEHR. EFR PEE IT 
顺序 。 假 设 记 法 : 是 一 个 向 量 ，i 是 向 量 i 的 第 k 个 元 素 ，i[l: 妇 是 一 个 长 度 为 K 的 向 量 ， 它 由 i 的 
最 左 k 个 元 素 组 成 ， 我 们 能 对 长 度 为 4 的 迭代 向 量 定义 词典 顺序 如 下 : 


定义 2.4 和 迭代 i 居 于 选 代 j 之 前 ， 用 i<j 表 示 ， 当 且 仅 当 (1) itl: n-1]<jll: n- 
1), 或 者 (2) iD: n—1) =jll: 2-1) Bi, <j 
REZ, -DERA RETA -PMERM BIZ AT, 4AM SRA ETA 
FETE HGRA CE ETI ZT. RABE IKK AS lel KA 1B ARGS HT 
元 素 相等 。 通 过 对 词典 顺序 的 自然 扩展 ， 还 能 在 迭代 向 量 上 定义 关系 < ，> 和 >。 
现在 我 们 定义 公共 循环 九 套 中 语句 之 间 的 依赖 。 
定理 2.1 循环 依赖 在 公共 婴 套 循环 中 存在 从 语句 $1 到 语句 5 的 依赖 ， 当 且 仅 当 
此 账 套 循环 存在 两 个 迭代 向 量 i 和 j， 使 得 (1) i<j, 或 i = j 并 且 在 循环 体 中 有 一 条 从 
$1 到 5: 的 路 径 ，(2) 在 选 代 i 中 语句 S: 访 问 存储 单元 WH， 而 在 选 代 j 中 语句 :访问 存储 单 
元 M，(3) 这 两 个 访问 之 中 至 少 有 一 个 是 写 人 。 
该 定理 是 直接 从 依赖 的 定义 得 到 的 必然 结果 。 条 件 (2) 保证 有 一 条 从 依赖 源 点 到 汇 点 的 
路 径 。 
2.2.3 依赖 和 变换 
意欲 使 程序 中 的 依赖 成 为 一 种 工具 ， 用 来 确定 何 时 做 某 些 程序 变换 是 安全 的 。 当 我 们 说 
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一 个 变换 是 “安全 ”的 ,通常 是 指 变换 后 的 程序 具有 与 原 程序 相同 的 “含义 ”"。 换 言 之 ， 我们 
不 仅 关心 提供 给 编译 器 的 原始 程序 的 正确 性 ， 而 且 关 注 变换 后 程序 是 否 做 与 原始 程序 相同 的 
事情 。 

但 是 这 里 引起 这 样 的 问题 : 必须 保持 什么 样 的 程序 行为 ”当然 我 们 不 需要 去 保持 运行 的 
时 间 。 因 为 这 些 变换 的 目标 正 是 改善 性 能 。 非 形式 地 讲 ， 保 持 可 看 见 的 程序 效果 (如 输出 的 
值 和 顺序 ) 看 来 抓 住 了 我 们 想 要 得 到 的 东西 的 本 质 。 

变换 下 的 程序 等 价 

传统 上 ， 依 赖 与 命令 式 语言 有 关联 ,在 这 类 语言 中 ， 每 个 语句 从 存储 器 中 读 出 和 存 和 人 数据 。 
在 命令 式 程序 中 ,逻辑 上 程序 的 含义 多 半 是 借助 于 计算 的 状态 来 定义 的 。 计 算 的 状态 是 保存 
在 存储 单元 中 的 所 有 值 的 集合 ; 值 (和 单元 ) 的 每 个 不 同 集 合 构 成 各 个 不 同 的 状态 。 显 然 ， 
两 个 正好 以 相同 的 状态 集合 进行 的 计算 ， 它 们 是 等 同 的 ， 但 是 如 此 强 的 等 价 定义 对 优化 有 过 
多 的 限制 ， 因 为 它 对 重新 安排 程序 步骤 提供 很 少 的 灵活 性 。 实 际 问题 是 : 程序 状态 详细 说 明 
同时 发 生 的 程序 的 全 部 值 。 这 意味 着 不 允许 程序 交换 对 不 同 的 存储 单元 更 新 顺序 ， 即 使 这 种 
变换 对 输出 没有 影响 。 

我 们 需要 一 个 等 价 的 定义 ， 允 许 在 变换 方面 有 更 多 的 包容 性 ， 同 时 保持 程序 员 希 望 的 正 
确 性 。 例 如 ， 如 果 一 个 不 同 的 算法 准确 地 计算 出 可 以 替代 的 相同 答案 ， 那 么 这 应 该 是 可 接受 
的 。 因此， 应 当 允 许 用 任何 稳定 的 排序 算法 替代 冒 泡 排 序 法 。 

为 了 达到 这 种 效果 ， 我 们 应 当 集中 在 可 见 程序 行为 的 一 致 性 上 。 在 计算 的 多 数 步 又 中 ， 
内 部 状态 是 外 部 不 可 见 的 。 恰 好 存在 输出 语句 使 得 内 部 状态 “有 趣 的 ”方面 一 一 程序 员 试图 
去 计算 的 东西 -一 成 为 可 见 的。 因此 ， 下 面 的 说 法 更 加 有 用 : 


定义 2.5 ”两 个 计算 是 等 价 的 ， 如 果 对 相同 的 输入 ， 它 们 按 相 同 的 顺序 执行 输出 
语句 时 ， 输 出 变量 产生 等 同 的 值 。 


此 定义 允许 用 不 同 的 指令 序列 (其 中 有 些 比 其 他 的 更 有 效 ) 去 计算 相同 的 输出 。 此 外 ， 
它 还 抓 住 这 样 的 概念 : 优化 必须 维持 的 计算 方面 仅 限于 它 的 输出 。 如 果 对 术语 “输出 ”定义 
得 足够 清楚 ， 那 么 此 定义 将 充分 达到 本 书 的 目的 。 

讨论 引起 这 样 的 问题 : 计算 的 副作用 是 什么 ? 副作用 的 一 个 例子 是 异常 ， 特 别 是 与 一 个 
错误 关联 的 异常 。 这 样 的 副作用 ， 对 优化 编译 器 来 说 已 经 成 为 问题 的 传统 根源 ， 由 此 产生 关 
于 变换 “安全 性 ”的 广泛 文献 [167]。 很 清楚 ， 编 译 器 变换 决 不 应 当 引 入 在 原 程序 中 不 会 出 现 
的 错误 。 然 而 ， 在 维护 输出 等 价 的 同时 ， 应 当 人 允许 消除 错误 异常 的 变换 吗 ? 对 于 Fortran， 常 
规 的 答案 是 “人 允许", 但 是 在 像 Java 这 样 的 语言 中 ， 它 们 具有 较 严 格 的 语义 和 显 式 异 常 ， 这 样 
回答 可 能 是 不 可 接受 的 。 因 为 本 书 集中 于 Fortran 或 类 似 的 语言 ， 我 们 将 允许 消除 异常 的 变换 
或 调整 那些 异常 发 生 的 时 间 ， 只 要 对 给 定 的 输入 变换 不 引入 异常 ， 而 这 种 异常 在 原 程序 中 对 
相同 的 输入 不 会 发 生 。 

基于 依赖 的 变换 的 正确 性 

用 现 有 的 这 些 变换 正确 性 概念 ， 我 们 已 能 确定 依赖 在 建立 正确 变换 中 所 起 的 作用 。 本 书 
中 讨论 的 多 数 优化 是 下 面 定 义 的 “ 重 排序 变换 ”: 


“定义 2.6” 重 排 序 变换 是 任何 这 样 的 程序 变换 ， 它 仅 改变 代码 的 执行 序 ， 不 增加 
或 取消 任何 语句 的 任何 执行 。 
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因为 重 排序 变换 不 取消 任何 语句 的 执行 ， 因 此 在 重 排序 变换 前 任何 两 次 执行 引用 一 个 公共 
的 存储 单元 ， 变 换 后 仍 将 引用 相同 的 存储 单元 。 因 此 ， 如 果 在 变换 前 语句 之 间 存 在 一 个 依赖 ， 
那么 变换 后 仍然 有 一 个 依赖 。 不 过 要 注意 ， 变 换 可 能 逆转 语句 引用 公共 存储 单元 的 顺序 一 一 从 
而 逆转 依赖 ( 即 变 换 前 为 5.552 而 变换 后 为 $2851)。 这 将 明显 地 导致 运行 时 的 不 正确 行为 。 


定义 2.7 重 排序 变换 维持 依赖 ， 如 果 它 维持 该 依赖 的 源 点 和 汇 点 的 相对 执行 顺序 。 
现在 我 们 已 作 好 证 明 关 于 变换 中 依赖 作用 重要 结果 准备 。 


定理 2.2 依赖 的 基本 定理 ”维持 程序 中 每 一 个 依赖 的 任何 一 种 重 排 序 变换 ， 将 
维持 该 程序 的 含义 。 

证 明 我 们 从 不 包含 条 件 语 句 的 无 循环 程序 开始 。 令 {51, So, …, Sw} 是 原 程序 的 执行 
WF. Ti, ib... 记 是 语句 索引 的 一 个 置换 ， 它 表示 在 重 排序 后 程序 中 语句 的 执行 顺 
序 ; BH{i, in o 户 是 {1,2,.…,n} 的 置换 ， 它 对 应 于 语句 的 重 排 序 。 假 设 依 赖 得 到 维持 ， 
但 含义 变 了 。 这 意味 着 某 个 输出 语句 产生 不 同 于 原 程序 中 相应 的 输出 语句 的 结果 。 

为 讨论 的 目的 ， 我 们 将 输出 语句 简单 地 看 成 是 计算 另 一 个 结果 ， 即 正 要 产生 的 
结果 。 用 这 种 模型 ， 在 变换 后 的 程序 中 语句 序列 至 少 包含 一 个 语句 ， 即 输出 语句 ， 
它 产生 一 个 “不 正确 的 ”结果 ， 即 不 同 于 由 原 程序 中 相应 语句 产生 的 结果 。 令 5 是 新 
序 中 产生 不 正确 结果 的 第 一 个 语句 。 因 为 此 语句 恰 与 原 程序 中 的 语句 相同 ， 在 它 的 
输入 存储 单元 之 一 中 必定 会 找 出 一 个 不 正确 的 值 。 因 为 在 5: 之 前 所 有 已 执行 过 的 语句 
产生 的 值 与 原 程序 中 的 值 相同 ， 这 样 就 只 有 三 种 情形 使 $: 能 看 到 在 一 特定 单元 M 中 一 
个 不 正确 的 输入 : 

1. 在 语 名 Sk 读 1 中 结果 之 前 ， 原 先 由 语句 So 将 其 结果 存 信 M 中 ， 在 Si 读 之 后 现在 
S$, 又 存 人 M。 这 意味 着 在 原 程序 中 重 排序 未 能 维持 真 依赖 S8Se， 违 背 了 假设 。 

2. 语 旬 5 最 初 存 和 人 MM 是 在 语句 $: 读 MM 之后， 现在 $m 又 在 $i 读 它 之 前 写 和 信 M。 这 意 
味 着 在 原 程序 中 重 排序 未 能 维持 反 依 赖 (Si8-!S$。)， 违 背 了 假设 。 

3. S 读 M 之 前 ， 两 个 语句 按 原来 的 顺序 写 人 M， 现 逆转 它们 的 执行 顺序 ， 引 起 错 
误 的 值 留 在 W 中 。 这 将 意味 着 重 排序 未 能 维持 输出 依赖 ， 违 背 了 假设 。 

既然 这 里 详 述 S, 可 能 得 到 错误 值 的 各 种 情形 ， 由 于 与 假设 矛盾 结论 得 到 证 明 。 

循环 。 为 了 将 此 结果 扩展 到 循环 上 ， 只 要 注意 到 列表 中 的 语句 执行 可 以 看 成 是 
用 迭代 向 量 编 上 索引 号 的 语句 实例 。 在 循环 体 中 任何 语句 执行 之 前 ， 提 供 计 算得 到 
的 正确 的 循环 迭代 次 数 ， 然 后 应 用 相同 的 论证 。 这 对 保证 维持 语句 实例 的 全 集 是 必 
要 的 。 实 施 这 种 限制 的 规范 约定 是 从 循环 头 到 循环 体 中 每 个 语句 有 一 个 控制 依赖 。 

带 条 件 的 程序 。 因 为 在 有 条 件 的 时 候 ， 我 们 还 没有 一 个 重 排序 变换 的 定义 ， 目 前 
我 们 将 假设 条 件 是 单个 宏 语句 ( 即 if-then-else 语 句 )， 重 排序 变换 将 它 当 成 一 个 单位 
来 对 待 。 在 第 7 章 中 将 此 结果 扩展 到 更 一 般 的 变换 上 上 。 用 此 单项 限制 定理 得 到 证 明 。 


定理 2.2 使 我 们 得 到 下 面 的 定义 


定义 2.8 ”一 个 应 用 到 程序 上 的 变换 ， 如 果 它 维持 程序 中 的 所 有 依赖 ， 就 说 它 对 
程序 是 有 效 的 。 
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从 定理 和 它 的 证 明 应 清楚 看 到 : 一 组 有 效 变换 维持 程序 中 对 每 个 存储 单元 读 和 写 的 顺序 一 一 
只 有 输入 访问 能 被 重 排序 。 因 此 ， 有 效 变换 维持 的 条 件 比 定义 2.1 说 明 的 等 价 条 件 更 强 ， 如 下 例 
所 示 : 

Lo DO I=1,N 


L; DO J= 1, 2 

Sa ACI, J) = ACI, J) +B 
ENDDO 

Si T=AI，1) 

Sz A(T, 1) = ACI, 2) 

S; A(I, 2) = T 


ENDDO 
在 此 代码 中 ， 从 56 到 $1;，52，5s 中 的 每 一 个 有 一 依赖 。 因 此 ， 一 个 基于 依赖 的 编译 器 应 禁 
止 奖 换 循环 L1 与 语句 块 {51,52,53}， 即 使 此 交换 在 数组 A 中 保留 相同 的 值 。 为 了 看 清 这 一 点 ， 
注意 A(I,1) 和 A(I,2) 都 接受 等 同 的 更 改 。 所 以 更 改 发 生 在 互 换 前 或 互 换 后 都 不 要 紧 。 
我 们 从 定理 2.2 能 立刻 得 到 这 样 的 结论 : 在 一 个 无 循环 程序 中 ， 如 果 在 两 个 语句 之 间 不 存 
在 依赖 ， 那 么 这 两 个 语句 能 并 行 地 执行 。 这 是 因为 ， 没 有 依赖 意味 着 两 个 语 名 的 相对 顺序 对 
于 用 输出 表示 的 程序 含义 来 说 是 不 重要 的 。 不 过 此 说 法 不 是 非常 有 用 的 ， 因 为 无 循环 的 程序 
没有 多 少 有 趣 的 计算 。 为 了 将 此 概念 扩展 到 循环 上 ， 需 要 引入 一 些 概 念 帮 助 我 们 理解 有 关 循 
DIRE PIE KB. 


2.2.4 距离 向 量 和 方向 向 量 
在 包含 涉及 依赖 语句 的 循环 侍 套 迭代 空间 中 ， 用 依赖 的 源 点 和 汇 点 之 间 的 距离 来 刻 划 依 
赖 是 方便 的 。 我 们 利用 距离 向 量 和 方向 向 量 来 表达 这 一 点 [278]。 


定义 2.9 ”假设 从 循环 戏 套 迭代 i 中 语句 S: 到 逮 代 j 中 语句 3: 有 一 依赖 ， 则 依赖 距离 
mdi, h) 定义 为 长 度 为 n 的 向 量 ， 使 得 d(i,j) = ji iko 


在 某 些 情 况 下 ， 使 用 距离 向 量 对 工作 是 有 益 的 ， 距 离 向 量 通过 依赖 跨越 循环 馆 代 的 数目 来 
表示 。 为 此 我 们 能 将 一 个 规范 化 的 距离 向 量 dw(i, j) 定义 为 dli, js, Hrs = {51, 52,... Sn ,为 
循环 步 长 向 量 。 为 本 章 讨论 之 用 ,我 们 将 假设 所 有 距离 向 量 是 规范 化 的 。 这 隐 含 着 : 对 一 循 
环 媒 套 内 依赖 涉及 到 的 语句 实例 ， 给 定 两 个 迭代 号 ij 和，i<j 当 且 仅 当 d(i,j)>0。 

距离 向 量 导 致 方向 向 量 定义 如 下 : 


定义 2.10 RRM ARH REVERIE YS AERIS. A hm; 那么 
依赖 方向 向 量 D(i,j) 定义 为 长 度 为 "的 向 量 ， 使 得 
“<”， 如 果 d(i,j)>0 
Di, j= “=”， 如 果 d(i, p. = 0 
“>”， 如 果 d(i, j),<0 


记 住 方向 向 量 中 项 的 一 种 方便 的 方法 是 将 “<” 和 “> ”看 成 是 箭头 。 利 用 这 种 方法 ， 箭 头 


总 是 指向 依赖 的 源 点 和 汇 点 的 迭代 向 量 偶 中 首次 出 现 的 循环 迭代 。 
依赖 的 方向 向 量 与 在 依赖 的 源 点 上 的 迭代 向 量 到 在 依赖 的 汇 点 上 的 选 代 向 量 有 关 。 例 如 ， 
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在 循环 
DOI=1, N 
D0 J=1, M 
DOK=1, L 
S; ACI + 1, J, K-1) = ACI, J, K) + 10 


ENDDO 
ENDDO 
ENDDO 


中 ， 语 句 S\ 有 一 个 到 它 自身 的 真 依赖 ， 具 有 方向 向 量 (<《,=,>)， 意 味 着 在 依赖 的 源 点 上 最 外 层 
循环 索引 小 于 依赖 汇 点 的 索引 ， 在 源 点 和 汇 点 上 居中 的 循环 索引 相等 ， 而 在 源 点 上 最 内 层 循 
环 的 索引 大 于 汇 点 的 索引 。 注 意 ， 如 果 一 个 方向 向 量 的 最 左 非 “=” 分 量 不 是 “<”， 那 么 依赖 
不 存在 ， 因 为 那样 意味 着 依赖 的 汇 点 出 现在 源 点 之 前 ， 而 这 是 不 可 能 的 。 

将 距离 向 量 、 方 向 向 量 和 差 向 量 限 制 在 公共 循环 中 的 理由 是 这 些 循 环 仅 影响 到 语句 的 相对 
执行 顺序 。 如 果 两 个 语句 实例 包含 在 "个 公共 循环 中 ， 对 这 些 语 句 来 说 ， 两 个 迭代 向 量 的 前 
个 分 量 是 相等 的 ， 于 是 它们 的 相对 执行 顺序 由 原文 的 位 置 确定 ， 而 不 管 向 量 余下 的 任何 成 分 。 

方向 向 量 与 变换 

方向 向 量 能 用 作 理 解 循环 重 排序 变换 的 基础 ， 因 为 它们 概括 了 依赖 的 源 点 和 汇 点 上 索引 
向 量 之 间 的 关系 。 第 5 章 将 说 明 在 受到 变换 影响 的 循环 嵌 套 中 如 何 判断 依赖 方向 向 量 上 作 各 种 
变换 的 效果 。 下 面 的 定理 解释 方向 向 量 如 何 能 用 来 测试 变换 的 合法 性 。 


定理 2.3 ”方向 向 量变 换 令 7 是 一 个 应 用 到 循环 企 套 上 的 变换 ， 它 不 重 排 循环 体 “ 
中 的 语句 。 在 应 用 变换 后 ， 如 果 循 环 储 套 中 源 点 和 汇 点 的 依赖 方向 向 量 中 没有 一 个 
最 左 非 “=” 分 量 是 “>”， 那 么 此 变换 是 有 效 的 。 

证 明 直接 从 定理 2.2 得 到 此 定理 ， 因 为 所 有 的 依赖 仍然 存在 ,并且 没有 一 个 依 
赖 被 倒转 。 


定理 2.3 的 主要 效果 是 : 如 果 能 说 明 循 环 代 套 的 变换 如 何 影响 到 循环 中 依赖 的 方向 向 景 ， 
我 们 就 能 用 此 定理 判断 何 时 此 变换 是 合法 的 。 在 第 5 章 中 将 用 它 来 确立 循环 交换 和 其 他 儿 个 变 
换 的 正确 性 。 
依赖 个 数 
在 处 理 依赖 时 经 常 发 生 的 一 个 问题 是 : 循环 嵌 套 中 给 定 的 一 对 语句 之 间 有 多 少 依赖 ? 从 
技术 上 讲 ， 我 们 必须 说 从 依赖 原点 的 每 个 语句 实例 有 一 个 到 相同 循环 候 套 中 另 一 个 语句 实例 ， 
的 依赖 。 因 此 ， 在 下 面 的 循环 中 ， 对 每 个 迭代 向 量 (i, 站 1<i<9 和 1<j< 10， 有 一 个 从 语句 
5 到 自身 的 依赖 。 
DO J = 1，10 
DOI= 1，10 
s AI + 1, 0) = A(I, J) +X 
ENDDO 
ENDDO 


这 是 因为 语句 S 在 索引 值 I = i 和 J = j 时 ， 在 数组 A 中 创建 了 一 个 值 ， 当 索引 I 具有 值 i + 1 和 
J 具有 j 时 ， 在 语句 $s 中 使 用 该 值 。 在 I 循环 的 最 后 一 次 迭代 中 ， 语 句 实例 上 没有 依赖 发 生 ， 因 
为 没有 后 继 挝 代 消 费 此 值 。 作 为 此 分 析 的 结果 ， 我 们 看 到 在 此 循环 中 有 90 个 不 同 的 依赖 。 
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实际 上 ， 设 有 一 个 编译 器 有 能 力 为 每 一 个 媒 套 循环 中 的 每 个 语句 保留 这 么 多 依赖 。 因 此 
我 们 必须 寻找 能 概括 依赖 的 方法 。 例 如 ， 在 外 层 循环 的 不 同和 迭代 中 发 生 的 依赖 之 间 没 有 差别 ， 
只 要 它 至 少 在 一 次 友 代 中 发 生 过 。 如 果 将 这 些 挝 代 的 所 有 依赖 组 合 在 一 起 ， 我 们 能 将 依赖 数 
目 降 至 9。 其 次 注意 所 有 这 些 依赖 有 大 量 的 对 称 性 : 每 次 迭代 中 生产 的 值 在 下 一 次 迭代 中 消费 ， 
所 以 ， 所 有 的 依赖 是 真 依赖 或 流 依赖 ， 并 且 所 有 的 依赖 距离 是 1。 这 提示 我 们 为 每 一 种 不 同 的 
依赖 类 型 仅 保留 不 同 的 距离 向 量 ， 就 能 减少 依赖 数目 。 然 而 ， 即 使 这 样 ， 这 种 简化 还 会 给 我 
们 留 下 过 多 的 依赖 ， 如 下 面 的 循环 侨 套 例 示 : 
DO J = 1，10 
DO I = 1, 99 
Si A(I，J) = BCI, J) +X 
S; CCI, J) = A(100-1, J) + Y 
ENDDO 
ENDDO 


当 1=1 了 时， 此 循环 在 语句 $ 存 入 A(1,J)。 随 后 在 内 循环 I=99 的 最 后 一 次 迭代 中 使 用 同一 单 
元 。 因 此 存在 一 个 从 Si: 到 $: 的 依赖 ， 距 离 为 98。 在 I=2 时 ， 存 人 A(2,J)， 在 I=98 时 使 用 ， 产 生 
一 个 距离 96 的 依赖 。 继 续 用 这 种 方法 ， 当 I=50 时 选 代 中 的 距离 降 至 0。 

在 下 一 次 迭代 中 ，I=51， 且 距离 变 为 负 2。 然 而 ， 我 们 知道 合法 的 依赖 不 能 有 一 个 负 的 距 
离 ， 因 为 这 将 表明 依赖 的 源 点 是 在 汇 点 之 前 执行 。 这 意味 着 I 大 于 50 的 选 代 中 依赖 的 源 点 和 汇 
点 被 倒转 了 ; 即 它们 是 从 语句 5 到 语句 $1 的 反 依赖 。 因 此 ， 此 循环 中 有 反 依赖 ， 直 至 所 有 距离 
升 至 98 (包含 98)。 从 51 到 5, 的 真 依赖 总 共有 50 个 不 同 的 距离 ， 而 从 5 到 51 的 反 依赖 有 49 个 不 
同 的 距离 。 再 一 次 表明 ， 这 是 太 多 了 。 

为 了 进一步 减少 编译 器 必须 记 住 的 不 同 依赖 的 数目 ， 本 书 将 采用 惯常 做 法 : 给 定 的 一 对 引 
用 之 间 的 依赖 的 数目 等 于 不 同 的 方向 向 量 的 数目 ， 它 是 对 这 些 引用 之 间 所 有 依赖 类 型 的 概括 。 
这 是 充分 的 ， 因 为 仅 用 方向 向 量 的 知识 能 处 理 那 些 将 被 应 用 的 多 数 变换 。 为 了 讨论 需要 距离 
的 变换 ， 我 们 仅 保留 从 一 个 迭代 到 另 一 个 迭代 不 改变 距离 情况 下 的 距离 。 在 上 面 的 最 后 例子 
中 ， 从 51 到 5; 的 真 依赖 仅 有 两 个 方向 向 量 (=,<) 和 (=,=)。 从 5 到 $1 的 反 依赖 有 惟一 的 方向 向 量 
(=,《“)。 因 此 ， 根 据 我 们 的 约定 ， 在 此 循环 嵌 套 中 总 共有 三 个 不 同 的 依赖 。 


2.2.5 循环 携带 依赖 和 循环 无 关 依 赖 

迄今 描述 的 数据 依赖 理论 ， 对 于 语句 $: 数 据 依 赖 于 语句 S: 强 加 了 两 个 必须 满足 的 要 求 : 

1. 必须 存在 一 条 可 能 的 执行 路 径 ， 使 得 S; 和 $: 两 者 引用 相同 的 存储 单元 M。 

2. S13 引用 MM 的 执行 发 生 在 $2 引用 M 的 执行 之 前 。 

为 使 5 依赖 于 51，51 的 某 次 执行 必须 引用 一 个 存储 单元 (如 果 考 虑 的 是 真 依赖 、 引 用 被 认 
为 是 存 数 )， 而 随后 由 $; 的 一 次 执行 引用 (对 真 依赖 是 使 用 )。 出 现 这 种 模式 有 两 种 可 能 的 方 
式 : i 

1. 在 循环 的 一 次 迁 代 中 ，Si 能 引用 公共 单元 ; 在 随后 的 迭代 中 S: 能 引用 同一 单元 。 

2. 在 相同 的 循环 迭代 中 ，S$: 和 S$: 两 者 能 引用 公共 单元 ， 但 是 在 循环 进 代 的 执行 过 程 中 Si 居 
于 S$: 之 前 。 

第 一 种 情况 是 循环 携带 依赖 的 例子 ， 因 为 此 依赖 仅 当 循环 在 迭代 时 存在 。 第 二 种 情况 是 
一 个 循环 无 关 依 赖 的 例子 ， 依 赖 存在 是 由 于 循环 内 代码 位 置 的 关系 。 下 面 几 小 节 详 述 这 些 依 
赖 类 型 。 
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循环 携带 依赖 
发 生 循环 携带 依赖 是 因为 循环 选 代 的 缘故 。 下 面 的 Fortran 程 序 段 说 明 此 概念 : 
DOI=1,N 
Sı A(I + 1) = F(I) 
S2 F(I + 1) = ACI) 
ENDDO 
REEI, TEGAN IRR, ，$: 使 用 在 前 一 次 迭代 中 由 Si 计算 的 A 的 值 ; Al 
此 语句 S: 有 一 个 对 Si 的 真 依赖 。 同 样 地 ， 话 名 Si 使 用 在 前 一 次 迭代 中 语句 S: 计 算 的 F 值 (第 一 
次 除外 )，、 因 此 真 依赖 于 语句 $5,。。 这 两 个 依赖 都 是 由 循环 携带 的 。 如 果 选 取 循 环 的 任何 特定 迭 
代 去 单独 执行 ， 没 有 依赖 存在 。 
定义 2.11 语句 $: 对 语句 $; 有 一 个 循环 携带 依赖 ， 当 且 仅 当 $i 在 迭代 i 中 引用 单元 
4 杂 ， 而 S$: 在 迭代 j 中 引用 M， 且 d(i.)>0 (MDG, j) 包含 一 个 “<” 作 为 它 的 最 左 非 “=” 
分 量 )。 


Edi, j) 中 非 0 分 量 的 出 现 ， 保 证 相应 的 循环 迭代 至 少 有 一 次 是 在 两 个 公共 引用 之 间 一 一 
因此 命名 为 “循环 携带 依赖 "。 这 将 有 助 于 根据 循环 体 中 涉及 到 的 语句 相对 顺序 分 出 携带 依赖 
的 类 别 。 


定义 2.12 ”从 语句 S 到 语句 $: 的 循环 携带 依赖 被 称 为 后 向 的 ， 如 果 在 循环 体 中 S。 
出 现在 S: 前 ， 或 者 S;: 和 3S: 是 相同 的 语句 。 携 带 依赖 被 称 为 前 向 的 ， 如 果 在 循环 体 中 5S: 
出 现在 $1 之 后 。 


循环 携带 依赖 的 一 个 重要 性 质 是 依赖 的 后。 
定义 2.13 循环 携带 依赖 的 层 是 此 依赖 的 D(i,j) 的 最 左 非 “=” 的 索引 。 


换言之 ， 依 赖 的 层 是 最 外 层 循 环 索引 的 和 嵌 套 层 ， 该 索引 在 依赖 源 点 和 汇 点 之 间 变 化 ， 其 
中 最 外 层 循环 是 在 柚 套 层 1。 在 前 面 的 例子 中 ， 所 有 依赖 的 层 是 1， 因 为 对 每 个 依赖 ，D(i,j) 是 
(<)。 在 下 面 的 循环 中 依赖 层 是 3: 
DO I=1, 10 
DO J=1, 10 
DOK = 1, 10 
Sı ACI, J, K +1) = ACI, J, K) 
ENDDO 
ENDDO 
ENDDO 


这 是 因为 D(i, j) 是 (=,=《)。 注 意 ， 在 这 种 情况 下 ， 此 依赖 实际 上 是 依赖 集 ， 每 个 依赖 对 
应 集合 (1:10,1:10,1:9} 中 的 一 个 迭代 向 量 。 以 后 ， 我 们 将 在 每 一 对 不 同 下 标的 数组 引用 之 
间 ， 联 系 一 个 独立 的 依赖 。 我 们 将 把 单个 引用 偶 的 所 有 依赖 看 成 是 一 个 依赖 ， 但 是 此 依赖 可 
以 有 许多 方向 向 量 。 

由 于 许多 理由 ,依赖 层 是 有 用 的 概念 。 理 由 之 一 是 : 层 非常 方便 地 概括 了 依赖 。 例 如 ， 
上 面 的 程序 段 含有 900 个 依赖 。 因 为 每 个 迭代 向 量 偶 (G, j) 引发 的 依赖 具有 d(i, j) = (0,0,1), 
依赖 层 方便 地 用 单一 性 质 刻 划 所 有 的 依赖 。 
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我 们 也 能 用 依赖 层 来 帮助 我 们 选择 把 哪些 变换 应 用 到 程序 中 ， 以 及 阻止 应 用 哪些 变换 。 有 
时 我 们 可 以 决定 阻止 一 个 特定 类 型 的 变换 ， 因 为 这 样 做 保证 我 们 希望 做 的 其 他 变换 的 有 效 性 。 


定义 2.14 ”如果 排 除 那些 不 能 维持 依赖 的 变换 ， 则 称 依赖 得 到 满足 。 


为 了 看 到 此 定义 如 何 有 用 ， 考 察 这 样 的 情况 : 我 们 希望 满足 由 一 特定 循环 层 携 带 的 所 有 
依赖 。 


定理 2.4 任何 重 排序 变换 如 果 满 足 ，(1) 维持 k 层 循环 的 迭代 顺序 ，(2) 在 小 于 
/的 层 上 ， 不 与 4 层 循环 内 的 任 一 位 置 交换 循环 ，(3) 在 大 于 k 的 层 上 ， 不 与 k 层 循环 外 
的 任何 位 置 交换 循环 ， 那 么 这 样 的 变换 维持 所 有 K 层 依赖 。 

证 明 ”任何 k 层 依赖 的 方向 向 量 D(i, j) 的 第 K 项 必须 是 它 的 最 左 “< "。 这 意味 着 
在 位 置 1 到 上 - 1 中 ， 方 向 都 是 “="。 因 此 k 层 依赖 源 点 和 汇 点 是 在 循环 1 到 上 - 1 的 相同 
迭代 中 。 因 此 ， 这 些 循 环 的 任何 迭代 重 排序 都 不 能 改变 此 依赖 的 意思 ， 因 为 根据 假 
设 在 1 到 k 一 1 层 上 将 保持 这 些 循环 。 另 外 ， 原 在 k 层 循环 内 的 循环 没有 一 个 循环 能 变 
为 依赖 之 一 的 携带 者 ， 因 为 那 将 需要 将 它 交换 到 该 循环 的 外 边 ， 按 照 假 设 这 是 被 排 

因为 保持 在 上 层 和 迭代 的 顺序 ，DGi, jf) 第 个 位 置 上 的 方向 将 保持 “<”。 因 此 ， 依 
赖 必定 得 到 保持 。 


定理 2.4 告 诉 我 们 : 由 于 拒绝 重 排 k 层 循环 的 迭代 顺序 ， 我 们 能 满足 任何 t 层 的 依赖 。 能 用 
它 来 确立 某 些 强 有 力 的 变换 的 有 效 性 。 例 如 ， 程 序 段 


DO I= 1, 10 
Sı A(I + 1) = F(1) 
S， F(I+ 1) = ACI) 

ENDDO 
等 价 于 

DOI=1,10 


S2 F(I + 1) = ACI) 
Si ACI + 1) = FCI) 
ENDD0 
因为 在 1 层 所 有 的 依赖 是 循环 携带 的 ， 因 此 我 们 保持 1 层 循 环 的 迭代 上 顺序。 对 循环 携带 的 
依赖 来 说 ， 语 名 顺序 是 没有 关系 的 。 
定理 2.4 还 确立 : 任何 变换 是 有 效 的 ， 如 果 它 们 是 在 最 座 的 依赖 层 实 施 的 。 例 如 ， 在 下 面 
的 代码 段 中 ， 我 们 一 旦 决定 按 原 顺 序 串 行 执行 外 层 循环 的 话 ， 那 么 我 们 能 实施 循环 重 排序 和 
逆转 内 层 两 个 循环 。 
DOI=1,10 
DO J=1, 10 
DO K= 1, 10 
S A(I+1,J+2,K+3)= A(I, J, K) +B 
ENDDO 
ENDDO 
ENODO 
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在 此 例 中 仅 在 1 层 上 是 携带 的 依赖 。 所 以 此 代码 等 价 于 


DO I= 1, 10 
DO K = 10, I, -1 
DO J = 1, 10 
S ACI + 1, J + 2, K + 3) = ACI, J, K) +8 
ENDDO 
ENDDO 
ENDDO 


这 是 通过 交换 J 和 Kk 循 环 并 逆转 K 循 环 获得 的 代码 ， 因 为 我 们 维持 1 层 I 循 环 的 迭代 顺序 。 

已 经 了 解 依赖 层 的 重要 性 ， 我 们 将 使 用 特殊 的 记 法 (依赖 符号 的 下 标 ) 来 表示 它 。 就 是 
说 ，5S1 和 5 之 间 的 ! 层 依赖 将 用 $165,$: 表 示 。 

循环 无 关 依赖 

与 循环 携带 依赖 相反 ， 循 环 无 关 依赖 是 由 相对 语句 位 置 引起 的 。 因此， 循环 无 关 依赖 决 
定 循环 伐 套 中 代码 执行 的 顺序 ， 而 循环 携带 依赖 决定 循环 必须 迭代 的 顺序 。 


定义 2.15 ”语句 5 有 一 个 对 语句 $1 的 循环 无 关 依 赖 ， 当 且 仅 当 存 在 两 个 迭代 向 量 
和 j， 使 得 (1) $: 在 迭代 i 中 引用 存储 单元 M，3$z 在 和 迭代 j 中 引用 M， 且 i = j; 并 且 (2) 
迭代 中 有 一 条 从 Si 到 $: 的 控制 流 路 径 。 


直观 上 看 ， 定 义 2.15 陈 述 这 样 的 事实 : 在 两 个 语 名 的 公共 循环 的 单 次 迭代 中 ， 如 果 两 个 语 
名 引用 相同 存储 单元 ， 则 存在 一 个 循环 无 关 依 赖 。 一 个 非常 明显 的 例子 是 


ENDDO 
在 I 循 环 的 每 一 迭代 中 ， 语 句 $z 使 用 的 值 ， 恰 好 是 由 语句 S: 计 算 的 ， 因 此 建立 了 循环 无 关 依赖 。 
一 个 不 太 明显 的 例子 是 


ENDDO 
在 循环 的 第 5 次 迭代 中 ， 语 句 S: 存 入 A(5)， 而 语句 S: 从 A(5) 中 取出 。 该 依赖 是 循环 无 关 的 。 此 
代码 段 中 所 有 其 他 的 依赖 是 由 循环 携带 的 。 用 下 面 的 例子 说 明定 义 中 出 现 分 离 的 迭代 向 量 j 和 j 
的 理由 : 
po I= 1，10 
Si A(I) =... 
ENDDO 
DO I= 1, 10 
S; ... = A(20-1) 
ENDDO 
ESAE DWAES EE — AAE RER PIA, EARE 
关 依 赖 。 公 共 循 环 对 循环 无 关 依赖 不 是 必要 的 ， 因 为 它们 是 由 语句 位 置 引 起 的 。 
注意 ， 如 果 我 们 维持 循环 无 关 依 赖 涉及 的 语 名 顺序， 那么 我 们 也 就 保证 那些 依赖 得 到 满足 。 





R: BEIER 35 


定理 2.5 如 果 从 5 到 $: 存 在 循环 无 关 依 赖 ， 任 何不 在 选 代 之 问 移动 语句 实例 并 且 
维持 循环 体 中 S: 和 S: 相 对 顺序 的 重 排序 变换 ， 将 维持 该 依赖 。 

证 明 根据 定义 ，S: 和 5$z: 在 迭代 向 量 j 和 j 中 引用 单元 M， 使 得 | = j， 且 3S$z 在 Si 之 
后 。 一 个 重 排序 变换 将 映射 到 i 站，j 映 射 到 j'"， 必 须 有 i" = 让。 因为 没有 一 个 语句 能 
移出 它 的 原 循 环 选 代 ， 并 因为 S: 在 S: 之 后 ， 所 以 循环 无 关 依 赖 的 判别 标准 仍然 符 
他 


Ao 


为 了 看 清 为 什么 我 们 需要 禁止 语句 迭代 的 移动 ， 注 意 代码 
D001=1,N 
SA(I)= B(I)+C 
S: Di) = A(I)+E 
ENDDO 
可 以 变换 成 为 
D(1) = A(1) +E 
DOI=2,N 
S; A(I-1) = B(I-1) +C 
s， DI) = ACI) +E 
ENDDO 
A(N) = B(N) +C 
这 仍然 是 一 种 重 排序 变换 ， 因 为 语句 S; 和 $: 的 所 有 实例 被 执行 。 另 外 ， 此 变换 维持 这 两 个 
语句 在 循环 体内 的 顺序 。 然 而 ， 由 于 将 语句 实例 移动 到 循环 外 面 ， 它 把 循环 无 关 真 依赖 转换 
成 后 向 携带 的 反 依 赖 ， 使 变换 无 效 。 
已 知 定理 2.5 中 确立 的 循环 无 关 依赖 的 性 质 ， 循 环 携带 依赖 中 使 用 的 层 表 示 法 的 自然 扩展 
是 用 无 穷 层 来 表示 循环 无 关 依赖 ( 即 S: 依 赖 于 S: 的 循环 无 关 依赖 ， 表 示 为 S18。Sz)。 此 层 表示 
没有 循环 排序 能 维持 依赖 。 注 意 ， 循 环 无 关 依赖 的 方向 向 量 的 全 部 项 都 是 “= ”。 
定理 2.4 和 2.5 清 楚 地 说 明 循 环 携带 和 循环 无 关 依赖 是 如 何 互补 的 。 只 要 肯定 循环 按 原 来 顺 
序 迭 代 ， 那 么 循环 携带 依赖 就 得 到 满足 、 而 不 管 在 一 特定 从 代 中 的 语句 顺序 。 只 要 维持 语句 
顺序 ， 一 个 循环 无 关 依赖 就 得 到 满足 ， 而 不 管 循环 迭代 顺序 。 
循环 无 关 依赖 和 循环 携带 依赖 划分 所 有 可 能 的 数据 依赖 。 为 了 看 清 这 一 点 只 需 注意 依赖 
Si5S: 的 存在 需要 Si 在 S: 之 前 执行 。 这 只 能 在 两 个 实例 中 发 生 : 
1. 当 依赖 距离 向 量 大 于 0 时 ， 或 者 
2. 当 依 赖 距 离 向 量 等 于 0 且 在 原文 上 Si: 出 现在 3: 之 前 。 
它们 正好 分 别 是 循环 携带 依赖 和 循环 无 关 依 赖 的 准则 。 如 果 不 是 这 两 种 情况 ， 且 S 和 Sz 引 
用 一 公共 存储 元 素 ， 那 么 $: 是 在 S: 之 前 执行 ， 而 依赖 实际 上 是 Sz8Si。 


迭代 重 排序 
我 们 用 有 关 选 代 重 排序 的 合法 性 的 一 个 结果 结束 这 一 节 。 


定理 2.6 ” 选 代 重 排序 ”一 个 变换 重 排 层 循环 迭代 的 顺序 ， 此 外 不 做 任何 其 他 的 
改变 ， 如 果 该 循环 不 携带 依赖 ， 那 么 它 是 有 效 的 。 

证 明 ”假设 k 层 循环 不 携带 依赖 ， 但 是 其 欠 代 的 某 种 顺序 不 能 维持 原 程 序 中 的 依 
赖 。 因 此 在 原 程 序 中 必 存 在 一 个 被 此 变换 倒转 了 的 依赖 。 根 据 定理 2.5， 它 不 能 是 循 
环 无 关 依 赖 。 所 以 它 必 是 一 个 携带 的 依赖 。 有 两 种 情况 : 
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1. 依赖 是 由 讨论 的 循环 之 外 的 一 个 循环 携带 的 。 因 此 ， 它 的 层 必 须 是 上 - 1 或 更 
低 的 层 。 因 为 在 K 层 重 排 迭 代 不 影响 在 1 到 上 - 1 层 上 的 循环 ， 根 据 定理 2.4 必 定 维持 在 
这 些 层 上 任何 携带 的 依赖 。 因 此 ， 此 依赖 不 能 由 一 个 外 循环 携带 。 
2. 依赖 是 由 讨论 的 循环 之 内 的 一 个 循环 携带 的 。 因 为 依赖 的 方向 向 量 在 第 k 个 位 
置 必 须 有 “=”， 重 排 循 环 不 能 改变 此 方向 。 所 以 方向 向 量 在 最 左 位 置 上 必须 仍 有 
“<”， 根 据 定 理 2.3 此 变换 是 有 效 的 。 
由 于 了 矛盾， 定理 得 到 证 明 。 


2.3 简单 的 依赖 测试 

依赖 测试 方法 将 在 第 3 章 进行 广泛 的 讨论 。 然 而 ， 为 理解 基于 依赖 的 变换 是 如 何 工作 的 ， 
有 必要 从 直观 上 看 依赖 是 怎样 计算 的 。 这 一 节 我 们 对 依赖 的 计算 作 一 个 直观 的 介绍 。 

我 们 用 更 具体 的 术语 来 说 明 循环 依赖 的 一 般 条 件 ， 由 此 开始 我 们 的 介绍 。 


定理 2.7 令 ac 和 8 是 下 面 循 环 侍 套 的 迭代 空间 内 的 迭代 向 量 : 
DO i, = L, U S 
DO iz = Lz, Uz, Sz 





从 Si 到 S$: 存 在 依赖 ， 当 且 仅 当 存 在 xc 和 8 的 值 ， 使 得 (1) a 按 词典 顺序 小 于 或 等 

于 B，(2) 下 面 的 依赖 方程 组 得 到 满足 : 
F(a) = 8P) 对 于 所 有 的 i, 1 <i<m (2-2) 

TER ”这 是 定理 2.1 的 直接 应 用 。 如 果 o <B， 则 定理 2.1 中 的 条 件 (1) R. E 
则 ， 如 果 a =B， 则 条 件 (1) 成 立 ， 因 为 显然 在 循环 侯 套 中 有 一 条 从 51 到 5; 的 路 径 。 
因此 定理 2.7 中 条 件 (1) 等 价 于 定理 2.1 中 的 条 件 (1)。 

方程 (2-2) 意味 着 在 迭代 a 和 BB 中 数组 A 的 索引 值 是 相等 的 ， 所 以 这 些 方程 等 价 
于 定理 2.1 的 条 件 (2)。 因 为 $1 是 写 和 信 ， 定 理 2.1 的 条 件 (3) 也 成 立 ， 所 以 此 定理 必 
适用 ， 和 希望 的 结果 得 到 证 明 。 


尽管 定理 2.7 能 很 容易 推广 ， 我 们 仍然 暂时 假设 六 在 依赖 的 源 点 和 汇 点 正好 包含 在 相同 的 
循环 中 。 
为 了 研究 依赖 背后 的 直观 感觉 ， 我 们 介绍 一 种 简单 的 A 记 法 ， 它 是 3.4.1 节 中 讨论 的 Pelta 
测试 的 基础 。 在 某 些 简单 情况 下 ,这 种 记 法 有 助 于 直观 上 更 容易 形象 化 简单 情形 中 的 依赖 。 
回顾 一 下 前 一 节 ， 一 个 依赖 的 存在 ， 只 要 可 在 的 依赖 源 点 在 迭代 i 中 访问 一 个 存储 单元 M， 
那么 随后 在 迭代 j 的 某 些 迭 代 中 ,依赖 汇 点 将 访问 同一 单元 M。 已 知 绝 大 多 数 下 标 是 简单 的 ， 
每 个 下 标 项 具有 单 循环 索引 加 或 减 一 个 常数 ， 理 解 依赖 的 一 种 简易 方法 是 将 潜在 的 依赖 源 点 
和 依赖 汇 点 看 成 是 相互 之 间 的 距离 为 A。 即 假设 源 点 在 选 代 Io 中 访问 M， 而 汇 点 在 随后 的 
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lotAI 中 访问 M， 这 里 AI 是 两 次 访问 之 间 的 迭代 数 。 对 这 种 多 数 的 简单 下 标 形式 ， 利 用 此 记 法 
提供 一 种 计算 依赖 的 快捷 、 直 观 的 方法 。 
作为 一 个 示例 ， 考 察 下 面 的 循环 : 
D0 I=1, N 
SACL + 1) = ACI) +B 
ENDDO 
为 了 测试 真 依赖 ， 假 设 在 选 代 Io 中 语句 S$ 左 端 访 问 MK， 而 在 随后 的 AI 和 迭代 中 语句 右 端 访问 
同一 单元 。 那 么 A(1ot1) 和 A(IotAI) 二 者 都 必 3 引 用 存储 单元 M。 为 此 我 们 必须 有 
I +1=TIt+A 


化 简 后 ， 产 生 AI=1。 因 为 1 大 于 0 (表示 它 的 确 在 随后 访问 )， 并 且 小 于 上 界 . (所 以 它 确实 被 执 
行 )， 这 里 有 一 个 真 依赖 ， 具 有 距离 1 和 方向 向 量 ( < )。 应 用 同一 方法 去 测试 一 个 反 依赖 产生 
AI=- 1， 说 明 设 有 依赖 。 因 为 下 标 形 式 是 简单 的 ， 对 此 循环 的 每 次 迭代 ，A 都 是 相同 的 ， 因 
此 依赖 距离 是 一 致 的 。 
在 具有 多 个 下 标的 情况 下 ， 如 代码 段 
DO I= 1，100 
DO J= 1, 100 
DO K = 1, 100 
A(I +1, J, K) = ACI, J, K +1) +B 
ENDDO 
ENDDO 
ENDDO 
我 们 得 到 下 面 的 索引 表达 式 方 程 : 
I, + 1 = I, + AT; Jo = Jo + Ad; Ky = Ky + AK + 1; 


这 些 方程 的 解 是 
AI = 1; AJ = 0; AK = -1 
并 且 相 应 的 方向 向 量 是 (<,=,>)。 
对 于 稍微 复杂 的 例子 ， 考 察 下 面 的 代码 段 : 
00 I= 1, 100 
DO J = 1, 100 
ACI +1, J) = ACI, 5) +8 
ENDDO 
ENDDO 
解 由 此 循环 导出 的 方程 组 ， 给 出 
AL=1, J=5 
因为 I 是 无 约束 的 ， 第 一 个 结果 告诉 我 们 I 维 中 对 I 的 所 有 值 依赖 距离 是 1。 另 一 方面 ， 第 二 个 
结果 告诉 我 们 在 依赖 源 点 上 Jo 是 常数 5， 因 为 依赖 距离 是 无 约束 的 ， 我 们 必须 设想 任何 距离 是 
在 -4 和 95 (循环 界 允 许 的 最 小 值 和 最 大 值 ) 之 间 实 现 的 。 
此 例 中 的 一 个 次 要 结果 是 任何 时 刻 循 环 索 引 不 在 依赖 源 点 或 汇 点 的 任何 下 标 中 出 现 ， 它 
的 距离 是 无 约束 的 ; 就 是 说 ， 它 能 取 任 何 合法 的 距离 。 特 别 ， 对 应 此 索引 的 方向 是 “*”， 表 
示 三 种 方向 的 联合 。 因 此 ， 在 循环 
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DO I = 1, 100 
DO J = 1, 100 
ACI + 1) = ACI) + BJ) 
ENDDO 
ENDDO 
中 ， 由 I 循 环 携带 的 依赖 方向 向 量 是 (< ，*)。 
作为 最 后 的 注释 ， 可 能 发 生 这 样 的 情况 : 如 果 假 设 一 个 引用 是 源 点 而 另 一 引用 是 汇 点 ， 
则 神 试 可 能 导致 在 最 左 方向 向 量 位 置 上 出 现 “>”。 这 并 不 意味 着 依赖 是 非法 的 ， 只 不 过 表示 
在 反方 向 上 有 一 个 相反 类 型 的 依赖 。 例 如 ， 如 果 前 面 的 代码 段 以 J 循环 
DO J = 1, 100 
DO I = 1, 100 
A(I + 1) = ACI) + B(J) 
ENDDO 
ENDDO 
作为 最 外 层 循 环 ， 测 试 将 产生 方向 向 量 (*,<) 或 {(<,<),(=,<),(>,<)}。 第 一 个 方向 对 应 于 1 
层 上 的 真 依赖 。 第 二 个 方向 向 量 对 应 2 层 上 的 真 依赖 ， 第 三 个 方向 对 应 1 层 上 具有 方向 向 量 
(<,>) 的 反 依 赖 。 它 的 存在 是 因为 当 J=1 和 I=2 时 ， 语 名 读 出 A(2)， 当 J=2 和 I=1 时 ， 语 句 存 人 
A(2). 


24 并 行 化 和 向 量化 
我 们 以 将 依赖 应 用 于 自动 并 行 化 和 向 量化 的 讨论 来 结束 这 一 章 。 虽 然 向 量化 可 以 看 成 是 
并 行 化 的 特殊 情况 ,我 们 将 把 对 它 的 处 理 放 在 第 二 位 ， 因 为 它 涉及 到 另外 一 个 循环 分 布 变换 。 


2.4.1 并 行 化 

并 行 化 一 个 循环 的 标准 方法 是 将 每 一 个 独立 的 选 代 转 换 为 一 个 并 行 线程 ， 并 且 蜡 步 地 运 
行 这 些 线程 。 在 某 种 意义 上 ， 这 是 一 个 重 排序 变换 ， 其 中 迭 代 的 诛 有 顺序 能 转换 成 一 个 不 确 
定 的 顺序 。 此 外 ， 因 为 循环 体 不 是 一 个 原子 操作 ， 两 次 不 同 选 代 中 的 语句 能 同时 运行 。 根 据 
定理 2.2， 如 果 它 不 逆转 任何 依赖 的 含义 ， 则 并 行 化 是 有 效 的 。 能 保证 这 一 点 的 惟一 方法 是 用 
简短 的 显 式 同 步 ， 禁 止 我 们 所 希望 的 并 行 运行 的 迭代 之 间 的 任何 依赖 。 


定理 2.8 MIIL 如 果 循 环 不 携带 依赖 ， 则 转换 串 行 循环 为 并 行 循环 是 有 
效 的 。 

证 明 变换 被 称 为 有 效 的 ， 是 指 变换 后 的 程序 对 任何 执行 调度 必须 是 有 效 的 。 从 
迭代 重 排序 定理 (定理 2.6) 我 们 知道 ， 如 果 循 环 不 携带 依赖 ， 那 么 将 迭代 安排 成 任 
何 顺 序 是 有 效 的 。 然 而 ， 在 并 行情 况 下 ， 交 又 并 行 迭代 中 的 个 别 语句 是 可 能 的 。 为 
证 明 此 定理 ， 我 们 必须 证 明 不 会 引起 依赖 逆转 。 

假设 在 并 行 循环 的 某 个 调度 中 依赖 被 逆转 。 这 意味 着 在 该 调度 中 依赖 的 汇 点 出 
现在 依赖 的 源 点 之 前 。 显 然 ， 在 此 并 行 循环 内 的 一 层 上 ， 依 赖 不 能 是 循环 无 关 的 或 
循环 携带 的 ， 因 为 在 那 种 情况 下 ， 源 点 和 汇 点 同 在 单一 迭代 中 出 现 。 因 为 迄 代 是 用 
单线 程 执 行 的 ， 其 中 所 有 语句 实例 的 顺序 得 以 保持 。 所 以 ,依赖 必定 是 由 并 行 循环 
之 外 的 一 个 循环 携带 的 。 但 根据 定理 2.4， 此 依赖 是 由 任何 重 排序 变换 维持 的 ， 它 不 
影响 携带 者 循环 的 顺序 。 因 此 定理 得 到 证 明 。 
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2.4.2 向 量化 

回顾 1.3.2 节 ， 向 量化 的 任务 是 判断 内 层 循 环 中 的 语句 是 否 能 直接 用 Fortrana 90 重 写 它 们 而 
被 向 量化 。 前 一 节 的 定理 2.8 告 诉 我 们 ， 不 携带 依赖 的 任何 单 语 句 循环 能 直接 向 量化 ， 因 为 该 
循环 能 并 行 运 行 。 因 此 循环 

DOI=1,N 

X(1) = X(I) +€ 

ENDDO 

能 安全 地 重 写 成 


XC1:N) = XC1:N) +C 


另 一 方面 ， 在 
DOI=1,N 
X(I + 1) = X(I) + 
ENDDO 
中 ， 携 带 有 一 个 依赖 ， 变 换 成 语句 
X(2:N + 1) = XI:N) +€ 
是 不 正确 的 。 在 每 次 色 代 中 ， 串 行 版 本 使 用 X 的 值 是 在 前 一 次 迭代 中 计算 出 来 的 ， 而 Fortran 
90 语 名 使 用 的 只 是 X 的 原 有 值 。 
已 知 循环 并 行 化 定理 (定理 2.8) ， 一 个 自然 要 问 的 问题 是 : 循环 中 携带 依赖 的 任何 语句 能 
直接 向 量化 吗 ?这 个 问题 受到 了 下 面 例子 的 启发 : 
D00I=1N 
Si A(I + 1) = BCI) +C 
Sa D(I) = ACI) + E 
ENDDO 
此 循环 携带 依赖 (S082), AARP AAP RA, mE PA MAP. 
然而 ， 将 此 循环 直接 转换 成 Fortran 90 具 有 与 下 面 串 行 循环 相同 的 含义 。 
Sı A(2:N+ 1) = BON)+C 
Sa D(1:N) = A(1:N) +E 
第 二 个 语句 的 并 行 版 本 使 用 由 前 一 循环 定义 的 元 素 A(2:N) ， 正 如 在 串 行 循环 中 所 为 。 这 种 显 
而 易 见 的 矛盾 能 用 这 样 的 事实 来 解释 : 向 量化 过 程 加 入 一 种 额外 的 变换 ， 称 为 循环 分 布 。 它 
的 效果 宠 如 首先 将 循环 转换 成 两 个 不 同 的 循环 
DOT=1,N 
Si ACI + 1)= BCI) +C 
ENDDO 
DO I=1,N 
Sz D(I) = ACI) + 上 
ENDDO 
其 中 每 个 循环 能 直接 向 量化 。 在 这 种 情况 下 ， 携 带 的 依赖 是 前 向 的 ， 但 是 ， 即 使 携带 的 依赖 
是 后 向 的 ， 向 量化 也 能 进行 ， 如 下 例 所 示 : 


DOI=1,N 
S: D(I) = ACID +E 
S; A(I + 1) = BCI) +( 


ENDDO 
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显然 ， 如 有 果 交 换 循环 体 中 的 语句 ， 此 循环 能 向 量化 ， 因 为 它 变 成 了 等 同 于 前 面 的 情况 。 此 交 
换 是 合法 的 ， 因 为 语句 之 间 没 有 循环 无 关 依赖 。 
男 一 方面 ， 如 果 在 语句 之 间 有 一 个 后 向 携带 依赖 和 一 个 循环 无 关 依赖 ， 那 么 不 能 对 它们 
向 量化 ， 因 为 上 述 交 换 是 非法 的 : 
DOI=1,N 
Sı  B(1)= A(I)+E 
S2 A(T + 1) = BCI) +C 
ENDDO 
这 里 不 能 用 循环 分 布 消除 后 向 循环 携带 依赖 ， 因 为 涉及 到 数组 8 的 循环 无 关 依赖 ， 我 们 不 
能 交换 循环 体 中 的 语句 。 这 在 直观 上 与 我 们 对 向 量化 的 理解 是 一 致 的 。 为 了 向 量化 一 个 语句 ， 
我 们 必须 有 可 能 去 分 布 围绕 它 的 循环 .为 此 在 进入 分 布 之 前 ， 我 们 必须 有 可 能 计算 分 布 循环 
的 任何 迭代 的 所 有 输入 。 依 赖 环 使 得 这 一 点 成 为 不 可 能 的 。 
住 下 面 的 定理 中 ， 将 这 些 观 察 得 到 的 结果 形式 化 ， 确 立 了 循环 中 哪些 诸 句 可 以 向 量化 的 
一 般 条 件 。 


定理 2.9 ”循环 向 量化 “至少 包含 在 一 个 循环 中 的 一 个 语句 ， 如 果 不 包含 在 任何 
依赖 环 中 ， 则 能 直接 用 Fortran 90 重 写 使 之 向 量化 。 

证 明 假设 语 甸 不 包含 在 任何 环 中 。 则 图 2-1 给 出 的 算法 将 正确 地 向 量化 该 语句 。 

回顾 早先 的 讨论 ，Fortran 77 D0 循环 中 的 一 个 语句 和 与 它 类 似 的 Fortran 90 向 量 ， 
其 间 的 关键 语义 差别 在 于 : 向 量 版 本 必须 在 存 入 任何 输出 之 前 ， 取 出 所 有 的 输入 ， 而 
D0 循 环 可 能 相互 混合 取出 和 存 人 。 因 此 ， 如 果 包 含 在 一 个 循环 中 的 语句 在 循环 的 开始 
处 具有 所 有 有 效 的 输入 ， 那 么 此 语句 能 被 正确 地 重 写成 Fortran 90 的 一 个 数组 赋值 。 

图 2-1 中 的 算法 将 同一 循环 中 的 语句 组 成 整体 有 序 的 语句 组 ， 组 中 的 每 个 语句 或 
是 依赖 图 中 环 〈 也 称 依赖 环 ) 的 一 部 分 ， 或 者 不 是 环 的 一 部 分 的 单个 语句 。 这 种 重 
排序 等 价 于 围绕 依赖 环 分 布 循环 和 向 量化 不 是 任何 环 的 一 部 分 的 语句 。 这 种 分 布 是 
正确 的 ， 因 为 没有 从 较 晚 的 环 到 较 早 的 环 的 后 向 边 〈 拓 扑 排序 保证 了 这 一 点 )， 所 以 
在 每 个 分 布 的 循环 开始 处 ， 所 有 必需 的 输入 将 是 可 使 用 的 。 这 种 向 量化 是 合法 的 ， 
因为 在 一 组 开始 执行 前 ， 该 组 外 面 的 一 个 组 需要 的 所 有 输入 值 是 可 使 用 的 ， 给 出 的 
排序 与 依赖 一 致 。 结 果 是 由 此 算法 实施 的 向 量化 是 正确 的 。 


Procedure vectorize (L, D) 
ULES RAMEE 
/ 了 是 L 中 语句 的 依赖 图 。 
FERPA DP RSA 天 的 最 大 强 连 通 区 域 的 集合 {S ，3 ，…，So} (使 用 Tarjan 强 连通 区 域 算法 [256]) ; 
通过 约 简 每 个 5 成 为 单 结 点 和 计算 D, 来 构造 L:， 由 DD 自然 地 从 依赖 图 导出 Li; 
A(T, Tay oo Mm REL MA, Hes PD. Be CEASE HE SAS) 


fori = 1 to m do begin 
if x, 是 一 个 依赖 环 then 
生成 围绕 元 中 语句 的 DO 循环 ; 
else 
用 Fortran 90 直接 重 写 此 单个 语句 ， 向 量化 包含 它 的 相应 的 每 个 循环 ; 
end : 
end 





图 2-1 简单 向 量化 
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定理 2.9 确 立 可 向 量化 的 充分 条 件 ， 但 它 比 需 要 的 条 件 强 得 多 ， 如 我 们 将 在 下 一 节 见 到 的 
那样 。 
2.4.3 一 个 先进 的 向 量化 算法 
图 2-1 中 简单 向 量化 算法 的 问题 是 失去 许多 向 量化 的 机 会 。 考 察 下 面 的 简单 例子 : 
DOI=1,N 
DOJ=1,M 
s A(I +1, J) = ACI, J) +B 
ENDDO 
ENDDO 
如 果 我 们 使 用 2.3 节 的 直观 方法 构造 依赖 图 ， 就 会 看 到 有 一 个 从 5 到 自身 的 依赖 ， 具 有 距 
离 向 量 (1,0) 和 方向 向 量 (<,=)。 因 此 ， 语句 5 包含 在 一 个 依赖 环 中 ， 所 以 简单 算法 将 不 对 它 
向 量化 。 
另 一 方面 ， 在 此 循环 伐 套 中 自 依 赖 是 由 1 层 上 携带 的 。 定 理 2.4 告 诉 我 们 : 由 于 保证 1 层 循 
环 的 选 代 顺序 不 变 ， 所 以 能 保证 依赖 得 到 维持 ; 就 是 说 ， 串 行 运行 外 层 循环 就 足以 保证 依赖 
得 到 维持 。 这 就 提示 我 们 : 一 旦 我 们 保证 依赖 将 得 到 文 足 ， 就 能 向 量化 内 层 循环 ， 产 生 
DOI=1,N 
S ACI + 1, 1:M) = ACI, 1:M) + B 
ENDDO 
一 般 说 来 ， 定 理 2.4 告 诉 我 们 : 通过 上 顺序 地 运行 包含 层 循 环 在 内 的 所 有 外 层 循 环 就 能 i 上 
层 依赖 得 到 满足 。 因 此 ， 即 使 一 个 语句 是 在 一 依赖 环 中 ， 我 们 也 许 能 通过 串 行 运行 革 些 循环 
对 它 向 量化 。 
这 些 观察 的 结果 提示 一 种 解决 多 维 向 量化 问题 的 递归 方法 : 首先 ， 尝 试 在 最 外 层 循 环 生成 向 
量 代码 。 如 果 依 赖 妨 碍 这 么 做 ， 则 串 行 运 行 外 循环 ， 从 而 满足 由 此 循环 携带 的 依赖 ， 并 尝试 更 深 
一 层 ， 忽 略 由 外 层 携带 的 依赖 。 这 个 方法 是 在 图 2.2[168，21] 介 绍 的 codegen 过 程 中 详细 说 明 。 


Procedure codegen (R, k, D) 
1/ R 是 我 们 必须 为 之 生成 代码 的 区 域 。 
U 上 是 合理 的 并 行 循 环 的 最 小 髓 套 层 。 
1/ D 是 R 中 语句 之 间 的 依赖 图 。 
在 依赖 图 D 中 求 受 图 于 KR 的 最 大 强 连 通 区 域 的 集合 {S,，5，,，.….，5S.}( 使 用 Tarjan 算 法); 
通过 约 简 每 个 $; 成 为 单 结 点 和 计算 D， 来 构造 R-:， 由 DD 自然 地 从 依赖 图 导出 Rs; 
令 {， 到 ，.…，T} 是 尺 的 m 个 结 点 ， 其 编号 顺序 与 Dr 一致 (使 用 拓扑 排序 生成 编号 ) ; 
for i= 1 to m do begin 
计 w 是 一 个 依赖 环 then begin 


生成 k 层 DO 语句 ; 
仿 D, 是 D 中 所 有 依赖 边 组 成 的 依赖 图 ， 它 们 是 在 k + 1 层 或 更 高 层 上 ， 并 且 是 
属于 和 内 部 的 ; 
codegen(m,, k + 1, Dj); 
生成 上 K 层 ENDDO 语 句 ; 
end 


else 
在 p(w) —k + 1 维 中 为 rr 生成 一 个 向 量 语句 ， 其 中 p(m) 是 包含 fi 的 循环 个 数 
end 
end codegen 


图 2-2 多 层 向 量 代码 生成 算法 
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最 初 在 整个 程序 的 1 层 (最 外 层 ) 上 调用 codegen。 第 一 步 是 将 程序 划 成 x 块 (piblock )， 
这 里 7 块 是 一 个 强 连通 区 域 ， 如 Tarjan 算 法 [256] 定 义 的 那样 。 强 连通 区 域 的 定义 允许 有 环 和 无 
环 两 种 7 块 ; 然而 ， 任 何 无 环 块 都 是 一 些 不 依赖 于 自身 的 单个 语句 。 接 下 来 ， 根 据 依赖 关系 对 
强 连通 区 域 做 拓扑 排序 [185]。 最 后 按 序 检查 每 个 区 域 。 如 果 区 域 是 无 环 的 (因此 必须 由 一 个 
语句 组 成 )， 则 在 余下 的 维 中 生成 此 语句 的 并 行 形式 。 如 果 区 域 是 有 环 的 ， 则 为 该 区 域 生成 1 
层 00 循 环 ，1 层 的 依赖 被 消除 ， 因 此 保证 它们 得 到 满足 ， 然 后 在 2 层 和 更 深 的 层 上 对 带 有 依赖 
集合 的 区 域 递 归 地 调用 codegen。 

为 了 说 明 codegenr 的 能 力 ， 考 虑 它 对 和 下面 程 序 段 的 应 用 。 


DO I = 1, 100 
Si X(I) = Y(I) + 10 
00 J = 1, 100 
Sz B(J) = ACJ, N) 
DOK = 1, 100 
Ss A(J + 1, K) = B(J) + C(J, K) 
ENDDO 
S4 Y(I + J) = ACO +1, N) 


ENDDO 
ENDDO 

图 2-3 给 出 此 程序 的 依赖 图 。 程 序 包含 下 列 依赖 : 

。 从 Sz 到 53 有 一 个 1 层 依赖 和 一 个 循环 无 关 真 依赖 ， 这 是 由 于 在 两 个 语句 中 使 用 B(J) 导 致 
的 。 为 了 看 清 这 一 点 、 我 们 看 一 下 2.3 节 中 简 
单 的 依赖 测试 过 程 。 因 为 索引 I 不 在 任何 一 
个 下 标 中 出 现 ， 对 外 层 循环 来 说 ， 距 离 问 量 
是 无 约束 的 ， 并 且 方 向 是 “*”。 男 一 方面 ， 
在 依赖 源 点 和 汇 点 上 对 J 的 引用 导致 方程 J。 = 
Jot AJ。 这 意味 着 AJ = 0， 并 且 J 循 环 的 方向 
是 “=”。 因 此 与 B(J) 相 关联 的 方向 向 量 集 是 
(*,=) 或 {(<,=),(=,=),(>,=)}。 第 一 个 向 量 
告诉 我 们 是 1 层 真 依赖 ， 第 二 个 告诉 我 们 是 
循环 无 关 真 依赖 。 第 三 个 方向 对 应 于 逆 方 向 
的 反 依赖 ， 在 下 一 小 段 讨论 。 

。 因 为 在 I 循 环 的 下 一 次 迭代 中 $: 存 人 B(J) 之 
前 ，53 使 用 B(J)， 所 以 有 一 个 由 1 循环 携带 的 
从 5 到 5z 的 反 依赖 。 

。 由 于 在 $; 中 定义 A(J + 1,K) 和 在 语句 $s 中 使 用 
A(J+ 1,N)， 有 一 个 从 S: 到 S4 的 循环 无 关 真 依赖 。 认 定 依赖 存在 是 因为 缺少 关于 N 的 值 的 其 
他 信息 ， 必 须 假 定 N 能 落 在 K 的 范围 内 (1 到 100 之 间 )。 注 意 ， 如 果 应 用 我 们 的 依赖 测试 过 
程 于 这 一 对 语句 上 ， 以 $: 作 为 依赖 源 点 ， 那 么 我 们 得 到 的 方向 集 为 (*,=) 或 {(《,=)， 
(=,=),(>,=)}。 这 意味 着 ， 这 两 个 引用 之 间 还 有 一 个 由 I 循 环 携带 的 真 依赖 和 一 个 逆 方 向 
的 反 依赖 ， 它 们 分 别 对 应 第 1 和 第 3 方向 向 量 。 在 下 一 小 段 讨论 反 依赖 。 

。 有 一 个 由 II 循环 携带 的 从 S4 到 S3: 的 反 依 赖 ， 这 是 因为 在 I 循 环 的 一 次 迭代 中 S4 使 用 A(U + 





图 2-3 例子 的 依赖 图 





RM: 理论 与 实践 43 


1,N); 而 在 该 循环 的 后 继 的 一 次 迭代 中 ( 当 J 的 值 正好 相同 且 K=N 时 )，5; 存 入 同一 单元 。 
这 对 应 于 前 一 小 节 中 的 第 3 个 方向 。 

* 有 一 个 由 I 循环 (1 层 ) 携带 的 从 S4 到 SI 的 真 依赖 ， 这 是 因为 在 一 次 迭代 中 S4 能 存 入 YCI + 
1)， 而 在 I 循环 的 下 一 次 迭代 中 51 从 中 读 取 。 使 用 简单 的 依赖 测试 过 程 ， 以 5 为 依赖 源 
点 ， 产 生 方程 

I,+J=1, + Al 


它 意味 着 A1=J。 因 为 J 总 是 大 于 0， 我 们 有 方向 “<”， 且 依赖 为 真 。 
*。 从 53 到 52 有 J 循环 (2 层 ) 携带 的 真 依赖 ,这 是 因为 J 循环 的 某 一 次 迄 代 中 53 存 人 A(J + 
1 水 )， 而 在 下 一 次 迭代 中 通过 对 A(J,N) 的 访问 ， 从 相同 的 单元 中 读 人 人。 再 一 次 ， 必 须 假 
定 N 是 在 1 和 100 之 间 。 此 依赖 的 方向 向 量 是 (*,<)， 它 还 引发 一 个 真 依赖 和 一 个 由 I 循环 
携带 的 逆向 反 依赖 ， 这 在 图 2-3 中 用 一 个 额外 的 标号 显示 。 
“语句 S:，S: 和 3S4 都 有 到 它们 自身 的 输出 依赖 ， 这 是 因为 它们 左 端 具有 的 维 数 比 包含 它们 
的 循环 个 数 少 一 。 因 此 ， 外 循环 必 引 起 在 不 同 的 迭代 中 存 人 相同 的 数组 元 素 。 在 简单 的 
依赖 测试 过 程 中 ， 我 们 会 看 到 这 一 点 ， 因 为 I 循环 的 方向 应 是 “*”。 
在 最 外 层 调用 codegen 将 产生 两 个 7 块 : 一 个 由 5S。，53 和 5s 组 成 的 有 环 7 块 和 一 个 由 5: 组 成 
的 无 环 7 块 。 其 结果 将 对 $1 向 量化 ， 但 必须 放 在 多 语句 zt 块 的 代码 之 后 ， 这 是 由 于 受到 拓扑 排 
序 的 限制 。 因 此 在 这 一 层 产 生 的 代码 是 


DO I= 1, 100 

codegen({S2, S3, Sa}, 2, D2}) 
ENDDO 
X(1:100) = ¥(1:100) + 10 


为 了 有 效 地 在 2 层 上 调用 codege ， 剥 去 1 层 上 的 所 有 依赖 ， 留 下 图 2-4 中 朱 绘 的 依赖 图 。 
现在 可 为 S4 生 成 向 量 代码 ， 但 S: 和 5S3: 仍 在 一 个 依赖 环 中 ， 至 此 
生成 的 代码 是 

DO I = 1, 100 

DO J= 1, 100 

codegen({S,, S3}, 3, Ds}) 

ENDDO 

Y(I + 1:1 + 100) = A(2:101, N) 
ENDDO 
X(1:100) = ¥(1:100) + 10 
最 后 调用 codegen 需 要 消除 2 层 上 的 依赖 ， 留 下 的 图 如 图 2-5。 
留 下 的 两 个 语句 能 按 向 量 操作 执行 。$: 没 有 用 于 向 量 执行 的 维 ， 





所 以 产生 一 个 简单 的 标量 语句 ， 最 后 的 代码 是 图 2-4 在 消除 1 层 依赖 后 
DO I = 1, 100 (Sz, Ss, SPAO IRIRE 
DO J = 1, 100 


B(J) = ACJ, N) 
A(J + 1, 1:100) = B(J) + C(J, 1:100) 
ENDDO 
Y(I + 1, I + 100) = A(2:101, N) 
ENDDO 
X(1:100) = Y(1:100) + 10 


尽管 codegen 是 一 个 简单 而 优雅 的 算法 ， 但 在 程序 中 能 产生 显著 的 变化 。 在 前 面 的 例子 中 ， 
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通过 算法 的 直接 应 用 暴露 了 所 有 可 用 的 向 量化 性 质 ， 在 语句 排序 方面 ， 需 要 非常 引 人 注 日 的 
改变 。 

从 本 章 的 几 个 定理 中 很 容易 得 出 过 程 codegen 的 正确 性 。 如 
果 一 个 区 域 是 有 环 的， 那么 定理 2.4 通 过 运行 循环 (根据 算法 的 
性 质 ， 循 环 1 到 k 一 1) 保证 满足 任何 k 层 依赖 。 因 此 ， 在 then 子 句 
中 的 语句 仅 忽 略 已 由 串 行 循环 得 到 满足 的 依赖 。 通 过 串 行 执行 00 
循环 ， 一旦 到 达 已 消除 所 有 的 环 的 某 一 层 ， 定 理 2.9 保 证 余下 的 
循环 可 正确 地 并 行 执行 。 注 意 ， 必 须 到 达 这 样 的 层 (保证 终止 )， 
因为 循环 无 关 依 赖 是 固有 无 环 的 ， 只 要 串 行 执行 所 有 的 循环 (所 ”图 2-5 在 消除 2 层 依赖 之 后 
以 生成 的 代码 在 0 维 是 并 行 的 ) 所 有 循环 携带 的 依赖 将 最 终 得 到 {Sz, $3} 的 依赖 图 
满足 。 最 后 ， 根 据 定理 2.5 拓 扑 排序 保证 循环 无 关 依 赖 会 得 到 维 
持 。 依 赖 环 外 的 循环 携带 依赖 能 由 拓扑 排序 得 到 维持 也 是 正确 的 ， 而 不 需要 这 些 语 句 包含 在 
公共 循环 中 ， 虽 然 这 一 点 没有 显 式 地 证 明 。 

应 当 很 清楚 ， 当 应 用 codesen 到 一 个 循环 嵌 套 上 ， 它 的 有 效 性 受到 依赖 图 的 精确 性 限制 。 
在 第 3 章 中 ， 我 们 提供 有 关 如 何 构造 一 个 有 效 的 和 精确 的 依赖 测试 过 程 的 细节 。 我 们 在 第 5$ 章 
同 到 算法 codegemr 上 。 

2.5 小 结 

依赖 是 编译 器 使 用 的 主要 的 工具 ， 用 于 分 析 和 变换 程序 ， 使 之 在 并 行 机 和 向 量 机 上 执行 。 
如 果 变 换 维护 了 程序 中 每 个 依赖 的 源 点 和 汇 点 的 顺序 ， 则 重 排 程序 中 语句 执行 顺序 的 任何 变 
换 维 持 程序 的 正确 性 。 可 以 用 它 作 为 有 效 的 工具 来 确定 何 时 并 行 化 或 向 量化 循环 是 安全 的 。 

可 以 用 几 个 不 同 的 属性 来 刻 划 依赖 。 依 赖 的 类 型 一 一 真 依赖 、 反 依赖 或 输出 依赖 一 一 告诉 
我 们 哪 一 个 对 应 到 读 前 写 、 写 前 读 或 写 前 写 。 循 环 中 的 依赖 具有 几 个 特殊 的 性 质 。 依 赖 方 向 
向 量 描述 仍 套 循环 在 依赖 源 点 和 汇 点 上 循环 索引 值 之 间 的 关系 〈《,= 或 >)。 距 离 向 量 给 出 循环 
爸 套 中 每 个 索引 的 依赖 所 跨越 的 欠 代 个 数 。 依 赖 被 称 为 是 循环 无 关 的 ， 如 果 它 的 方向 向 量 项 
都 是 “=”。 人 否则 它 是 循环 携带 的 。 循 环 携带 依赖 的 层 是 循环 的 戏 套 层 ， 它 对 应 于 方向 向 量 中 
“最 左 非 “= ”方向 。 

这 些 概念 的 有 用 性 在 一 个 简单 而 有 效 的 向 量化 算法 中 说 明 ， 如 图 2-2 所 示 。 在 这 一 章 简要 
介绍 了 构造 依赖 图 的 方法 ， 第 3 章 将 详细 讨论 这 些 方法 。 


2.6 实例 研究 

原始 设计 的 codegen 过 程 处 于 PFC 向 量化 系统 的 核心 位 置 。 在 PL/1 中 的 实现 使 用 一 组 PL/1 
预 处 理 器 宏 指令 实现 语句 集 ， 使 其 实际 的 实现 与 图 2-2 中 的 样 例 代 码 非 常 类 似 。 过 去 几 年 已 将 
此 过 程 一 般 化 使 其 包含 若干 个 变换 ， 这 些 将 在 第 5 章 介 绍 。 所 有 添加 功能 始终 保留 基本 结构 。 
后 来 IBM VS Fortran Vectorizer[243] 和 Ardent Titan 编 译 器 [17] 采 纳 了 codegen 结 构 。 

PFC 的 原始 实现 使 用 了 依赖 的 一 种 简化 表示 ， 它 不 包含 全 部 方向 向 量 ， 仅 标识 出 程序 中 每 
个 携带 依赖 的 层 号 ， 并 区 分 携带 依赖 与 循环 无 关 依 赖 。 在 3.8 节 中 对 这 种 表示 有 更 详细 的 描述 。 


2.7 历史 评述 与 参考 文献 
数据 依赖 及 其 对 向 量化 和 程序 变换 的 应 用 ， 是 Lamport[195 ，196] 和 Kuck ，Mnuraoka 和 
Chen[191，219] 最 早 陈述 的 。 虽 然 Kuck[189] 是 第 一 个 对 这 些 概 念 精确 刻 划 和 命名 者 ， 但 在 
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Parallelizer 系 统 背 景 中 ，Lamport 发 展 了 友 代 空间 、 差 向 量 的 概念 以 及 类 似 于 方向 向 量 的 概念 。 
他 也 提出 类 似 于 真 依赖 、 反 依赖 和 输出 依赖 的 记 法 。 语 句 依赖 是 用 简单 而 有 效 的 数据 依赖 测 
试 判 定 的 。Lamport 提 出 一 个 向 量化 算法 ， 它 基于 这 样 一 个 准则 : 从 那些 不 能 向 量化 的 循环 中 
精确 地 划分 出 能 正确 地 向 量化 的 循环 。 此 准则 称 为 “ 真 不 相 容 性 ， 它 等 价 于 在 2.4.2 中 讨论 的 
依赖 图 中 环 的 记 法 。 

在 Parafrase 系 统 中 ，Kuck 和 他 的 同事 们 [191，219] 发 展 一 种 依赖 的 记 法 ， 比 起 在 Parallelizer 
中 使 用 的 更 清楚 : 数据 依赖 清晰 地 分 类 为 真 依赖 、 反 依赖 和 输出 依赖 ， 并 使 用 精细 的 而 试 去 判 
断 出 现 或 不 出 现 依赖 。 因 为 对 依赖 的 清晰 定义 ，Parafrase 有 一 个 检测 向 量 语句 的 简单 测试 : 任 
何 语句 只 要 它 不 依赖 于 自己 ， 就 能 按 向 量 执行 。 其 结果 ， 用 一 个 依赖 图 的 传递 闭 包 来 划分 可 向 
量化 和 不 可 向 量化 语句 。Wolfe[283] 提 出 了 如 本 章 介绍 的 方向 向 量 方法 ， 并 将 它们 应 用 到 包括 
循环 交换 和 向 量化 在 内 的 许多 重 排序 变换 中 。 

Kennedy 第 一 个 指出 依赖 层 的 重要 性 ， 并 将 Tarjan 算 法 应 用 到 这 个 问题 上 ; 本 书 中 介绍 的 
两 个 算法 归功 于 他 [168]。Allen 对 重 排序 变换 精确 地 刻 划 了 某 些 变换 范围 ， 在 这 个 范围 内 可 以 
应 用 依赖 。 基 于 依赖 ， 许 多 研究 人 员 已 提出 基于 依赖 的 特殊 变换 ， 包 括 循环 交换 [280，19]、 
循环 倾斜 [195，281] 、 并 行 化 [52，25]、 结 点 分 裂 [190] 和 循环 合并 [1，269] 。 

循环 携带 依赖 和 循环 无 关 依 赖 的 特征 首先 是 由 Allen 和 Kennedy[16，21] 指 明 的 。 基 于 依赖 
层 的 每 个 类 的 性 质 以 及 逐步 求 精 的 向 量化 算法 也 是 由 Allen 和 Kennedy 提 出 的 。 

已 有 众多 的 作者 讨论 过 依赖 测试 [21，32，283，285]。 非 形式 化 的 测试 策略 来 自 Goff， 
Kennedy 和 Tseng[123]。 第 3 章 将 更 详细 地 讨论 依赖 测试 。 
习题 

2.1 使 用 依赖 的 简单 过 程 ， 为 下 面 的 从 套 循环 构造 所 有 的 依赖 ， 并 对 每 一 依赖 提供 (a) 
方向 向 量 ，(b) 距离 向 量 ，(c) 循环 层 ，(d) 类 型 。 

DO K = 1, 100 

DO J = 1, 100 
DO I = 1, 100 
AI +1, +2, K +1) =ACI, J, K+1)+8 
ENDDO 


ENDDO 
ENDDO 
2.2 为 下 面 的 循环 构造 所 有 的 方向 向 量 ， 并 指明 与 每 个 方向 向 量 相 联 的 依赖 类 型 。 
DOK = 1, 100 
DO J = 1, 100 
DO I = 1，100 
ACL +1, J, K) = ACL, J, 5) +B 
ENDDO 
ENDDO 
ENDDO 


2.3 习题 2.2 中 的 循环 能 并 行 化 吗 ? 如 果 能 ， 给 出 一 个 并 行 版 本 。 
2.4 对 图 2-3 中 所 示 的 依赖 ， 构 造 所 有 的 方向 向 量 。 为 对 应 固定 距离 的 每 个 方向 ， 明 示 其 
距离 。 
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2.5 考虑 下 面 的 循环 : 
DOK = 1, 100 
D0 J = 1，100 
Sı BG, J, K) = ACL, J-l, K) 
DOI= 1, 100 
$z A(T +1, J, K) =B(I, 100-J, K) + C 
ENDDO 
ENDDO 
ENDDO 


语 名 5, 依赖 于 语句 51 吗 ?语句 $1 依赖 于 语句 $; 吗 ?对 于 每 个 存在 的 依赖 ， 给 出 依赖 类 型 、 
方向 向 量 以 及 涉及 的 数组 变量 。 应 用 过 程 codegen 于 此 峰 套 循环 上 会 产生 什么 ? 
2.6 循环 反 转 是 一 种 变换 ， 它 将 一 个 给 定 循环 的 迭代 短 序 反 转 过 来 。 换 言 之 ， 循 环 反 转 变 
换 将 具有 循环 头 
DOI=L, H 
的 循环 变换 成 具有 相同 循环 体 但 是 循环 头 为 
DO I = H, L, -1 , 
的 循环 。 陈 述 并 证 明 循环 反 转 有 效 性 的 充分 条 件 。 给 出 一 个 简单 的 循环 例子 ， 说 明 你 的 条 件 
不 是 必要 的 (例子 违反 条 件 但 仍 能 反 转 而 不 改变 结果 )。 
2.7 在 下 面 的 嵌 套 中 ， 对 I 循环 的 循环 反 转 有 效 吗 ? 为 什么 有 效 或 没有 效 ? 
DO J= 1, N 
DOI=1, M 
ACI +1, d +1) =ACI, J) +C 
ENDDO 
ENDDO 


2.8 一 家 著名 的 并 行 计算 公司 的 代表 喜欢 说 : “如 果 你 要 判断 一 个 给 定 的 循环 是 否 能 并 行 
化 ， 只 要 反 转 它 一 一 如 果 你 得 到 相同 的 答案 ， 那 么 就 能 安全 地 将 它 转 换 成 一 个 并 行 00。 ”这 种 
说 法 正确 吗 ? 为 什么 正确 或 不 正确 ? 








依赖 测试 


3.1 引言 

依赖 测试 是 用 来 判断 循环 伺 套 中 在 两 个 相同 数组 的 下 标 引 用 之 间 是 否 存 在 依赖 的 方法 。 
计算 数组 的 数据 依赖 是 复杂 的 ， 因 为 数组 包含 许多 不 同 的 单元 。 这 一 章 提 供 各 种 高 度 精确 依 
赖 测试 方法 的 详细 描述 。 为 了 阐述 的 目的 ， 忽 略 了 控制 流 (循环 自身 除外 )。 

回顾 第 2 章 ， 在 最 一 般 的 情况 下 ， 依 赖 测试 的 几乎 全 部 原则 能 用 在 下 面 典型 循环 嵌 套 中 判 
断 从 语句 S; 到 语句 $: 是 否 存在 依赖 的 问题 来 说 明 : 


DO i, = Li, U 
DO iz = Lz, U; 


DO i, = La, Un 
Sı A(fi(il,...，in),...，,fa(il,...， iv)) =... 
S2 wee = Ag(i. .in),..., ga(il,..., i,)) 
ENDDO 


ENDDO 
ENDDO 

A> o FB ee 1 a Ha RAY OR te EK RS PTA. Al, oA PARE ANHAE, 
它 的 第 项 是 一 个 整数 值 ， 该 值 在 婴 套 的 第 个 循环 的 下 界 和 上 界 之 间 。 回 顾 定义 2.1， 两 个 语 
名 之 间 存 在 数据 依赖 必须 满足 两 个 要 求 : 两 个 语句 必须 访问 相同 的 存储 单元 ， 并 且 在 相同 的 
访问 之 间 必 须 存在 一 条 适宜 的 控制 路 径 。 按 照 这 个 例子 的 表示 ， 该 定义 是 说 : 从 S: 到 S: 存 在 依 
赖 ， 当 且 仅 当 存 在 a 和 B 的 值 使 得 按 词典 顺序 a 小 于 或 等 于 B (控制 流 要 求 )， 满 足下 面 的 依赖 
方程 组 (公共 访问 要 求 ): 

f(a) = gx(B), 对 于 所 有 i, 1 <i<m (3-1) 

方程 (3-1) 是 基于 这 样 的 简单 观察 : 两 个 数组 访问 相同 的 存储 单元 ， 当 且 仅 当 每 一 个 对 
应 的 下 标 项 是 等 同 的 9 。 否 则 两 个 引用 是 无 关 的 。 

依赖 而 试 有 两 个 目标 ， 第 一 个 目标 〈 并 且 是 最 想 要 的 结果 ) 是 证 明 给 定 的 一 对 相同 数组 
变量 的 下 标 引 用 之 间 不 存在 依赖 。 达 到 这 个 目标 使 用 的 机 制 是 证 明 在 适当 的 a 和 B 的 区 域 中 方 
程 3-1 无 解 。 当 不 能 达到 此 目标 时 ， 依 赖 测试 企图 用 某 种 方法 刻 划 可 能 的 依赖 ， 通 常用 距离 向 
量 和 方向 向 量 的 最 小 的 完全 集 来 刻 划 。 自 始 至 终 ， 测 试 必 须 是 保守 的 ; 即 不 能 明确 地 证 明 依 
赖 不 存在 ， 就 必须 假设 任何 可 能 的 依赖 存在 。 


日” 如 果 程 序 使 数组 访问 超出 了 说 明 的 数组 界 ， 那 么 这 种 说 法 是 不 正确 的 。 在 Fortran 中 这 样 的 访问 是 非法 的 ; 
本 书 假定 只 有 合法 的 数组 引用 。 
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本 章 余下 的 部 分 讨论 自动 解 方程 3-1 (证 明 无 解 ) 的 方法 。 


背景 和 术语 
在 研究 判定 方程 3-1 有 解 或 无 解 的 方法 之 前 ， 我 们 需要 一 种 适当 的 表示 法 。 第 2 章 已 经 介 
绍 过 距离 向 量 、 方 向 向 量 以 及 它们 对 数据 依赖 的 应 用 。 本 章 自 始 至 终 采 用 这 种 认 知 。 依赖 测 
试 的 目标 就 是 构造 距离 向 量 和 方向 向 量 的 完全 集 ， 用 来 表示 相同 数组 变量 的 任意 一 对 下 标 引 
用 之 间 溢 在 的 依赖 关系 。 因 为 距离 向 量 可 以 被 当成 精确 的 方向 向 量 ， 故 本 章 余下 的 部 分 将 始 
终 仅 使 用 方向 向 量 。 
索引 和 下 标 
为 了 依赖 测试 的 目的 ， 将 使 用 术语 索引 表示 围绕 两 个 引用 的 某 循环 的 索引 变量 。 另 外 ， 
假设 已 检测 出 所 有 的 辅助 归纳 变量 ， 并 用 循环 索引 的 线性 函数 赫 换 (更 多 的 细节 见 第 4 章 )。 
术语 下 标 将 用 于 指 一 对 数组 引用 中 下 标的 位 置 之 一 。 因 为 依赖 测试 总 是 考虑 一 对 数组 引 
用 ， 所 以 我 们 总 是 使 用 术语 下 标 指 一 对 下 标 位置 。 例 如 ， 在 循环 嵌 套 
D0 1 
DO j 
DO k 
3 A(i,j) = ACi,k) +€ 
ENDDO 


ENDDO 
ENDDO 


中 对 数组 A 的 一 对 引用 索引 i 出 现在 第 一 个 下 标 中 ， 索 引 j 和 k 出 现在 第 二 个 下 标 中 。 

为 简单 起 见 ， 假 设 所 有 循环 的 步 长 为 1。 非 单位 步 长 值 在 需要 时 立即 可 以 用 第 4 章 讨论 的 
方法 正规 化 。 

非 线性 . 

就 其 全 部 原则 来 说 ， 显 然 依 赖 测试 是 一 个 不 可 判定 问题 。 下 标 值 可 能 是 任意 表达 式 ， 
它们 的 值 一直 要 等 到 运行 时 才能 知道 ， 使 得 编译 时 不 可 能 确定 依赖 。 虽 然 在 实际 程序 中 会 
出 现 某 些 不 确定 实例 (需要 保守 假设 ,假定 所 有 可 能 的 依赖 存在 )， 但 大 多 数 下 标 是 较 简单 
的 一 一 通常 为 归纳 变量 的 多 项 式 一 一 并 因此 是 编译 时 分 析 的 主体 形式 。 即使 是 一 般 的 多 项 式 ， 
用 当前 的 数学 理论 去 求 方程 3-1 的 解 也 是 太 复 杂 了 。 所 以 ， 我 们 将 做 进一步 的 简化 : 除非 另 
有 说 明 ， 将 假设 数组 下 标 是 循环 索引 变量 的 线性 表达 式 。 就 是 说 ， 所 有 的 下 标 表达 式 的 形 
式 为 

aiii tait ...+ anin $e (3-2) 

HH AGAERE BLES, MAhja, (1<k<n) 是 整 常数 ，e 是 一 个 表达 式 ， 可 
能 包含 循环 不 变 的 符号 表达 式 。 任 何不 符合 这 个 限制 的 下 标 将 归 类 为 非 线性 下 标 类 ， 并 将 不 
对 它们 做 测试 。 这 个 限制 不 是 很 严重 的 ， 因 为 实际 上 遇 到 的 大 多 数 下 标 是 线性 的 。 可 是 ,由 
于 各 种 各 样 的 缘由 也 出 现 非 线性 下 标 。 例 如 ， 如 果 在 循环 的 一 个 下 标 中 出 现 一 个 变量 ， 它 从 
一 输入 介质 中 读 值 ， 那 么 该 下 标 将 是 非 线 性 的 。 另 外 ， 多 数 依 赖 测 试 程序 将 把 包含 其 他 下 标 
数组 引用 的 任何 下 标 当 成 非 线性 的 。 因 为 这 样 的 下 标 在 “不 规则 的 ”或 “ 自 适 应 的 ”数值 代 
码 中 是 很 常见 的 ， 处 理 成 非 线 性 会 导致 近似 于 依赖 的 过 度 保守 。 
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保守 测试 

带 有 线性 的 限制 ， 依 赖 测试 等 价 于 求 线性 丢 番 图 方程 组 整数 解 的 问题 ， 这 是 一 个 NP 完 
全 问题 。 精 确 地 解 此 问题 是 非常 困难 的 ; 因此 ， 多 数 依赖 测试 寻找 有 效 的 近似 解 。 一 般 来 
说 , 最 常见 的 近似 是 保守 地 做 测试 一 一 保守 测试 尝试 证 明 依 赖 方程 (方程 (3-1)) 不 存在 解 。 
它 不 试图 证 明 依 赖 实际 上 的 存在 。 换 言 之 ， 如 果 保 守 测 试 判断 没有 依赖 存在 ， 那 么 编译 器 
就 能 信赖 这 一 结论 。 然而， 可 能 是 这 样 一 种 情况 : 引用 是 无 关 的 ,但 是 保守 测试 没有 能 力 
去 证 明 它 。 另 一 方面 ， 精 确 测 试 是 这 样 一 种 依赖 测试 : 当 且 仅 当 依赖 存在 时 检测 依赖 。 注 
意 ， 保 守 依 赖 测试 的 不 精确 将 决 不 会 导致 编译 器 生成 不 正确 的 代码 ， 仅 仅 是 代码 较 少 优化 
而 已 。 

每 当 保守 依赖 测试 程序 遇 到 非 线 性 下 标 时 ， 它 将 假定 下 标 表 达 式 可 等 同 于 任意 的 距离 和 
方向 。 就 是 说 ， 非 线性 下 标 不 能 用 来 求 精 它 所 包含 的 任何 索引 上 的 依赖 测试 。 因 此 ， 为 了 测 
试 的 目的 ， 将 把 非 线性 下 标 作 为 实际 上 不 存在 的 一 个 下 标 处 理 。 其 他 的 下 标 仍 可 用 来 求 精 可 
以 在 依赖 中 出 现 的 方向 集 ， 或 者 甚至 能 证 明 无 依赖 。 

复杂 性 | 

复杂 性 与 出 现在 下 标 中 的 索引 个 数 有 关 一 一 在 一 个 下 标 位 置 中 出 现 的 不 同 循环 索引 越 多 ， 
依赖 测试 就 变 得 越 复杂 。 说 一 个 下 标 是 ZIV 〈 零 索引 变量 ) ， 如 果 无 论 在 哪 一 个 引用 中 KE 
标 位 置 不 包含 索引 。 说 一 个 下 标 是 SIV 〈 单 索引 变量 ) ， 如 果 在 该 位 置 上 仅 有 一 个 索引 。 任 何 
有 多 于 一 个 索引 的 下 标 被 说 成 是 MIV 〈 多 索引 变量 )。 例 如 ， 考 虑 下 面 的 循环 : 


DO i 
DO j 
DO k 
Sı A(5,i + 1,j) = A(N,i,k) +C 
ENDDO 
ENDDO 
ENDDO 


当 对 此 样本 段 中 对 A 的 两 个 引用 之 间 测 试 一 个 真 依赖 时 ， 第 一 个 下 标 是 ZIV ， 第 二 个 下 标 是 
SIV， 第 三 个 是 MIV。 再 一 次 请 记 住 约定 ， 在 此 上 下 文中 “下 标 ” 是 指 一 对 相应 的 下 标 。 
可 分 性 
为 了 依赖 测试 的 目的 ， 可 分 性 描述 一 个 给 定 的 下 标 是 否 与 其 他 下 标 相 互 影响 。 当 测试 多 
维 数组 时 ， 说 一 个 下 标 位 置 是 可 分 的 ， 如 果 它 的 索引 不 在 其 他 下 标 中 出 现 [16，51]。 如 果 两 个 
不 同 的 下 标 包含 相同 的 索引 ， 它 们 是 郴 合 的 。 例 如 ， 在 循环 
DO i 
D0 j 
DO k 
Sı A(i,j,j) = ACi, j,k) +C 
ENDDO 
ENDDO 
ENDDO 
中 ， 第 一 个 下 标 是 可 分 的 ， 但 第 二 个 和 第 三 个 是 耦合 的 ， 因 为 它们 两 个 都 包含 索引 j。ZIV 下 
标 是 可 分 的 ， 因 为 它们 不 含 循环 索引 。 l 
术语 “可 分 的 ”来 源 于 线性 代数 和 差分 方程 ， 将 它 应 用 到 带 有 不 同 变量 的 方程 组 中 ， 这 
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样 的 方程 组 能 独立 地 求解 。 然 后 这 些 独 立 的 解 能 合并 在 一 起 ， 形 成 一 个 精确 的 解 集合 。 
这 种 独立 的 性 质 对 可 分 的 下 标 也 成 立 。 如 果 一 个 下 标的 位 置 是 可 分 的 ， 那 么 它 所 含 的 循 
环 索引 不 在 其 他 下 标 中 出 现 。 所 以 只 要 检查 该 下 标 位 置 ， 就 能 独立 地 测试 对 应 这 些 索引 的 方 
向 集合 。 得 到 的 方向 向 量 能 进行 以 位 置 为 基础 的 完全 精确 的 合并 。 例 如 ， 在 循环 嵌 套 
DO i 
DO j 
DO k 
Sı A(i+1,j,k-1) = A(i,j,k) +C 
ENDDO 
ENDDO 
ENDDO 


中 ， 通 过 测试 第 一 个 下 标 确定 方向 向 量 中 最 左 方向 ， 通 过 测试 第 二 个 下 标 确定 中 间 方向 ， 通 
过 测试 第 三 个 下 标 确定 最 右 方向 。 得 到 的 结果 方向 向 量 (<,=,> ) 是 精确 的 。 应 用 相同 的 方法 到 
距离 上 ， 使 我 们 计算 得 到 精确 的 距离 向 量 (1,0, - 1)。 

另 一 方面 ， 当 测试 看 合 组 时 ， 我 们 必须 将 组 中 的 所 有 下 标 放 在 一 起 考虑 ， 以 便 得 一 个 精 
确 的 方向 集合 。 注 意 ， 这 里 测试 中 不 精确 的 意思 是 指 依赖 测试 程序 可 能 报告 了 实际 上 不 可 能 
存在 的 某 些 方向 。 

MATRA 

正如 我 们 在 前 一 节 指 出 的 ， 一 个 不 可 分 的 下 标 必须 包含 一 个 索引 的 出 现 ， 该 索引 至 少 也 
在 相同 数组 引用 偶 的 另 一 个 下 标 中 出 现 。 包 含 相同 索引 的 任何 两 个 下 标 被 称 为 耦合 的 。 

识别 耦合 是 重要 的 ， 因 为 带 有 耦合 下 标的 多 维 数组 引用 能 导致 依赖 测试 的 不 精确 。 为 看 
出 这 一 点 ， 考 虑 下 面 的 循环 例子 : 

DO I = 1,100 
Sı A(I+1,I) = B(I) +C 
S2 D(I) = ACI,I) * E 
ENDDO 
如 果 分 开 检查 数组 A 的 下 标 引用 ， 我 们 会 发 现 不 能 消除 语句 S: 对 语句 Si 依赖 的 可 能 性 。Si 中 在 
存储 时 的 第 一 个 下 标 等 于 $s 中 下 一 次 逻 代 使 用 中 的 第 一 个 下 标 。 在 存储 时 的 第 二 个 下 标 等 于 
相同 迭代 中 的 第 二 个 下 标 。 因 此 ， 没 有 一 个 下 标 能 独立 地 用 来 消除 依赖 。 然 而 ， 如 果 将 它们 
放 在 一 起 考虑 ， 我 们 看 到 不 可 能 有 依赖 存在 一 一 依赖 不 能 同时 既是 循环 携带 的 ， 又 是 循环 无 
关 的 。 

很 容易 看 出 ， 耦 合 是 等 价 关系 的 一 种 形式 。 因 此 ， 我 们 可 将 一 个 〈 最 小 的 ) MAME 
为 耦合 关系 下 的 非 平凡 等 价 类 一 一 一 个 至 少 有 两 个 下 标的 组 使 得 (0) 每 个 下 标 是 耦合 的 ， 在 
该 耦合 组 中 至 少 还 要 有 另外 一 个 下 标 ，(2) 该 组 不 能 划分 成 更 小 的 组 ， 除 非 将 两 个 耦合 的 下 
标 放 进 不 同 的 子 组 中 。 对 非 平凡 等 价 类 加 上 这 种 限制 是 必要 的 ， 因 为 耦合 组 的 大 小 为 1 就 是 一 
个 可 分 下 标 。 

在 例子 


D0 i 
DO j 
DO k 
S A(i+l,j,k-1) = A(i,j+i,k) +C 
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ENDD0 
ENDDO 
ENDDO 


中 ， 当 而 试 语句 S 依 赖 于 自身 时 ， 第 一 个 和 第 二 个 下 标 形成 一 个 不 合 组 ， 而 第 三 个 下 标 是 可 分 
的 。 

耦合 的 MIV 下 标 形式 Maite, azj+cz》 称 为 受 限 的 双 索 引 变 量 (RDIV ) 下 标 。 除 了 i 
是 不 同 的 索引 外 ， 这 些 下 标 类 似 于 SIV 下 标 。 这 种 特殊 情况 的 测试 将 在 3.4.1 节 讨论 。 

注意 ， 可 以 将 下 标 耦 合 组 想像 成 一 个 可 分 实体 ， 因 为 它 能 精确 地 测试 一 个 方向 集合 ， 这 
些 方向 对 应 于 在 组 中 出 现 的 循环 索引 。 然 后 这 些 方 向 能 与 其 他 测试 产生 的 方向 合并 ， 合 并 方 
法 与 合并 来 自 可 分 下 标 方 向 相同 。 


3.2 依赖 测试 概述 

虽然 我 们 没有 明确 地 说 过 ， 将 下 标 分 成 ZIV，SIV 或 MIV 类 的 主要 理由 是 能 同等 地 测试 这 
些 较 简 单 的 下 标 形式 〈 依 赖 的 核心 )， 比 起 测试 更 复杂 的 形式 来 更 为 简单 和 更 加 精确 。 例 如 ， 
用 简单 检查 就 能 确定 ZIV 偶 A(5) 和 A(6) 决 不 会 相等 (因此 是 无 关 的 )。 更 复杂 的 MIV 侦 A(I+J) 
和 A(1~J) 需 要 更 加 复杂 、 更 不 精确 的 分 析 。 有 效 依赖 测试 的 关键 是 应 用 的 测试 方法 不 能 比 下 
标 测 试 需要 的 方法 更 为 复杂 。 

这 一 节 详 述 迄 今 讨论 过 的 每 种 下 标 类 型 的 依赖 测试 的 特性 。 讨 论 中 隐 含 一 个 有 力 的 算法 ， 
它 能 确定 引起 依赖 的 一 对 下 标的 位 置 ， 确 定 围绕 这 些 引 用 的 公共 循环 个 数 ， 根 据 类 型 划分 引 
用 的 下 标 ， 并 调用 相应 的 测试 来 发 现 基 于 下 标 类 型 的 方向 向 量 。 算 法 数学 上 的 复杂 部 分 涉及 
到 一 旦 为 测试 识别 了 一 对 特定 的 引用 后 要 做 的 工作 ， 它 是 这 一 节余 下 部 分 的 主题 。 算 法 的 这 
— BA DUT FR: 

(1) 将 下 标 划 分 成 可 分 的 和 最 小 耦合 组 。 

(2) 将 每 个 下 标 分 类 为 ZIV，SIV 或 MIV 。 

(3) 对 每 个 可 分 的 下 标 ， 基 于 下 标的 复杂 度 应 用 适宜 的 单 下 标 测 试 (ZIV, SIV, MIV), 
或 者 证 明 无 依赖 ， 或 者 对 下 标 中 出 现 的 索引 产生 方向 向 量 。 如 果 证 明 无 依赖 ， 那 么 在 其 他 位 
置 上 无 需 进 一 步 测 试 。 

(4) 对 每 个 耦合 组 ， 应 用 多 下 标 测试 对 该 组 中 出 现 的 索引 产生 方向 向 量 集合 。 

(5) 如 果 任 何 测 试 得 出 无 依赖 的 结论 ， 由 于 无 依赖 存在 而 不 需要 进一步 铀 试 。 

(6) 其 他 情况 下 将 前 面 步 又 中 计算 的 所 有 方向 向 量 合并 成 两 个 引用 的 单一 的 方向 向 量 
集合 。 
将 数组 引用 偶 申 所 有 的 下 标 分 类 为 可 分 的 或 某 个 最 小 耦合 部 分 ， 算 法 得 以 利用 可 分 性 。 
一 个 耦合 组 是 最 小 的 ， 如 果 它 不 能 被 划分 成 具有 不 同 索引 集 的 两 个 非 空子 组 。 一 旦 实现 了 划 
分 ， 每 个 可 分 的 下 标 和 每 个 耦合 组 有 完全 不 相交 的 索引 集 。 然 后 ， 分 开 测 试 每 个 划分 ， 并 且 
不 失 精度 地 合并 得 到 距离 向 量 或 方向 向 量 。 


3.2.1 下 标 划分 

图 3-1 介 绍 的 算法 详细 说 明 划 分 下 标的 第 1 步 。 一 开始 partition 将 每 一 对 下 标 放 入 它 自 己 的 
划分 中 ， 虽 然 初 看 起 来 算法 的 时 间 复 杂 度 是 Ol(m”)， 但 当 数 据 结构 允许 用 常数 时 间 的 联合 操作 
做 划分 时 ， 实 际 上 算 波 复杂 度 是 线性 的 。 
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procedure partition(S, P, n,) 

/3 是 具有 索引 ID, …, 工 的 "个 循环 中 国 善 的 单个 引用 偶 的 闫 个 下 标 偶 
MH Sy, So, Sn 的 集合 ， 
/ P 是 输入 变量 ， 它 包含 由 下 标 划分 成 可 分 的 或 最 小 耦合 组 构成 的 集合 ， 
/W np 是 划分 的 数目 
n, =m; 
for i= 1 to m do P; - {S}; 
for i= 1 to n do begin 

k- <none> 

for each 余 下 的 划分 Pj do 

让 存在 £ P 使 得 s 包 1; then 
if k= <none> then k- j; 

else begin pi ~ p: U p; EFP; np: =n, — 1; end 

end 


end partition 





图 3-1 下 标 划 分 算法 


3.2.2 合并 方向 向 量 
在 测试 算法 中 描述 的 合并 操作 值得 另 作 解 释 。 因 为 每 个 可 分 的 和 耦合 的 下 标 组 包含 惟一 
的 索引 子 集 ， 可 以 将 合并 想像 成 笛 卡 尔 积 。 在 循环 嵌 套 
DO I 
DO J 
Sı A(I+1,J) = A(I,J) +C 
ENDDO 
ENDDO 
中 ， 第 一 个 位 置 产 生 I- 循 环 的 方向 向 量 (<)， 而 第 二 个 位 置 产生 J- 循 环 的 方向 向 量 (=)。 得 到 
的 笛 卡 儿 积 是 单个 向 量 (《,=)。 
一 个 更 复杂 的 例子 是 


DO I 
DO J 
Si A(I+1,5) = ACI,N) +C 
ENDDO ' 
ENDDO 


第 一 个 下 标 产 生 1 循 环 的 方向 向 量 (<)。 因 为 在 Jj- 循环 中 没有 变化 (J 不 出 现在 任何 下 标 中 ， 且 
N 不 直接 随 J 改 变 ) ， 所 以 J- 循 环 的 每 一 次 迭代 中 ， 对 A 的 两 个 引用 自始至终 访问 相同 的 存储 单 
元 。 因 此 ， 如 果 它 们 访问 一 个 公共 存储 元 素 ， 则 对 该 元 素 的 所 有 访问 模式 都 会 出 现 。 换 名 话 
说 ， 对 J- 循 环 必须 假设 为 方向 向 量 全 集 {(《),(=),(>)}。 合 并 产生 下 面 的 方向 向 量 集合 : 
{(<,<),(<,=),(<,>)}. 

对 ZIV 下 标 依赖 测试 结果 要 特殊 对 待 。 如 果 一 个 ZIV 下 标 证 明 是 无 依赖 的 ， 则 依赖 测试 算 
法 立即 停止 。 如 果 未 证 明 无 依赖 ， 则 ZIV 不 产生 方向 向 量 ， 故 无 需 合并 。 


3.3 单 下 标 依赖 测试 
一 旦 下 标 得 到 划分 和 分 类 ， 就 是 应 用 特定 测试 的 时 候 ， 由 此 判断 依赖 是 否 存在 ， 并 刻画 
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它们 的 行为 。 这 一 节 研 究 可 用 的 最 简单 测试 : 那些 能 应 用 到 单 下 标的 测试 。 稍 后 几 节 将 研究 
HAHM. 
3.3.1 ZIV 测 试 

因为 ZIV 不 包含 对 任何 循环 归纳 变量 的 引用 ， 在 任何 循环 内 ， 它 们 不 变化 (假设 所 有 的 
符号 项 是 循环 不 变量 )。 因 此 ， 如 果 能 证 明 两 个 表达 式 不 相等 ， 那 么 相应 的 数组 引用 是 无 依 
赖 的 。 如 果 不 能 说 明 这 些 表 达 式 是 不 同 的 ， 那 么 下 标 不 分 布 到 任何 方向 向 量 上 (因为 它 不 包 
含 循环 归纳 变量 )， 并 可 被 忽略 。ZIV 测 试 能 很 容易 扩展 到 符号 表达 式 上 ， 做 法 是 构造 表示 
两 个 下 标 表达 式 的 差 表达 式 。 如 果 差 表达 式 可 以 简化 为 一 个 非 0 常 数 ， 则 这 样 的 下 标 是 无 依 
HARI a 
3.3.2 SIV 测 试 

复杂 度 从 ZIV 下 标 上 升 一 级 是 SIV 下 标 。SIV 下 标 实际 上 是 最 常 出 现 的 ， 很 多 作者 (著名 
的 如 Banerjee，Cohagan 和 Wolfe[34，77，285]) 发 表 了 用 于 线性 SIV 下 标的 单 索引 精确 测试 。 
这 些 方法 都 是 基于 求 两 个 变量 的 简单 丢 秋 图 方程 的 全 部 解 。 这 一 节 介 绍 的 方法 比 那些 精确 测 
试 要 稍微 简单 一 些 。 通 过 将 SIV 下 标 分 离 成 强 SIV 和 弱 SIV 两 个 类 ，、 这 些 方法 得 到 简化 。 

强 SIV 下 标 

对 索引 i， 说 一 个 SIV 下 标 是 强 的 ， 如 果 它 有 《ai+cl, a'to) ÉR; 就 是 说 ， 如 果 它 是 
线性 的 ， 同 时 索引 两 次 出 现 的 系数 是 
常数 ， 并 且 相 等 。 图 3-2 给 出 对 应 强 SIV y 
偶 的 方程 的 几何 图 形 。 因 为 循环 系数 对 
每 个 引用 是 相同 的 ， 强 SIV 偶 映射 到 一 
对 平行 直线 。 标 记 A(m) 的 水 平 线 指示 两 
个 下 标 访问 相同 元 素 的 点 。 因 为 直线 的 
平行 性 质 ， 访 问 公共 元 素 将 被 相同 的 循 
环 迭 代 距 离 喇 开 。 这 个 距离 称 为 依赖 距 A 
离 ， 能 用 下 面 的 公式 计算 : 

d=i'-j= 47% (3-3) 








a c/a c/a N; i 
两 个 引用 之 间 存 在 依赖 ， 仅 当 对 公 32 强 IV 测 试 的 几何 视图 
共 元 素 的 访问 发 生 在 由 循环 所 设置 的 界 
内 (给 定 SIV， 两 个 引用 必定 只 涉及 到 一 个 循环 )。 仅 当 d 是 一 个 整数 (如 果 不 是 一 个 整数 ， 两 
个 下 标 对 相同 元 素 的 引用 不 能 出 现在 一 次 迭代 中 )， 并 且 
ld«<U-L (3-4) 


时 ， 才 会 发 生 这 样 的 访问 ， 这 里 U 和 Z 是 循环 上 界 和 下 界 〈 否 则 ， 最 多 有 一 个 引用 能 出 现在 循 
环 的 选 代 空间 内 )。 这 些 事实 为 我 们 提供 一 个 非常 简单 的 依赖 测试 : 计算 4; 如 果 它 是 整数 ， 
且 绝 对 值 落 在 循环 区 域内 ， 则 存在 依赖 ， 它 的 方向 能 用 d 的 符号 确定 。 否 则 无 依赖 存在 。 
强 SIV 测 试 的 一 个 优点 是 很 容易 扩展 它 用 来 处 理 循环 不 变 的 符号 表达 式 。 首 先 扩 展 对 符号 
日 ”这 里 一 个 值得 注意 的 例外 古 距 离 为 0%， 它 仅 能 产生 一 个 循环 无 关 依赖 。 单 个 语句 中 的 引用 之 间 的 0 距离 不 表 
示 一 个 依赖 
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表示 的 依赖 距离 d 求 值 。 如 果 结 果 为 常数 ， 那 么 可 以 实施 上 述 的 测试 。 否 则 可 计算 循环 界 之 差 ， 
并 与 d 做 符号 上 的 比较 。 下 面 的 循环 是 可 能 出 现 的 代码 例子 : 
DOI=1,N 
Sı A(I+2#N) = ACI+N) + C 
ENDDO 
强 SIV 测 试 能 求 出 依赖 距离 4 为 2N-N， 简 化 为 N。 与 循环 界 做 符号 化 比较 。 证明 无 依赖 ， 
为 N>N-1。 
弱 SIV 下 标 
与 强 SIV 下 标 不 同 ， 弱 SIV 下 标的 循环 归纳 变量 上 有 不 同 的 系数 ， 并 因此 取 形 式 《aii+o， 
ai +cz)。 正 如 前 面 说 明 ， 用 单 索引 精确 测试 可 以 求解 弱 SIV 下 标 。 然 而 ， 从 几何 角度 看 此 问 
题 也 可 能 有 帮助 ， 其 中 依赖 方程 


aitc,=ai'+cz (3-5) 


描述 二 维 平面 中 的 一 条 直线 ， 以 i 和 为 坐标 轴 [51]。 然 后 能 将 弱 SIV 测 试 公式 化 为 在 内 循环 上 
界 和 下 界限 定 的 空间 中 ， 判 断 从 依赖 方程 推导 出 的 直线 是 否 相交 于 任何 整数 点 ， 如 图 3-3 所 示 。 
这 里 有 两 个 特殊 情况 对 我 们 思考 有 帮助 。 





</a) c/a; N; i 


图 3-3 弱 SIV 下 标的 几何 视图 
弱 -0 SIV 下 标 
如 果 两 个 系数 之 一 是 0( 即 a1 =0 或 a;=0)。 那 么 此 下 标 是 弱 -0 SIV 下 标 。 如 果 as 等 于 0， 
则 依赖 方程 变 成 
270 (3-6) 





系数 为 0 时 的 引用 在 循环 过 程 中 仅 引 用 一 个 数组 元 素 (图 3-4 中 的 水 平 直 线 )。 假 定 其 他 的 
系数 不 是 0， 两 条 直线 只 在 一 点 相交 一 一 方程 (3-6) 定义 的 那 一 点 。 因 此 ， 测 试 仅 包括 检查 计 
算 的 值 是 一 个 整数 ， 并 且 是 在 循环 的 界 内 。 当 a 是 0 时 ， 应 用 与 其 对 称 的 测试 。 

38-0 SIV 测 试 求 由 一 特殊 迭代 引起 的 依赖 。 在 科学 计算 代码 中 ， 这 个 迭代 通常 是 循环 的 
第 一 次 或 是 最 后 一 次 ， 对 这 样 的 依赖 消去 一 个 可 能 的 方向 向 量 。 更 加 重要 的 是 ， 由 第 一 个 或 
最 后 一 个 循环 从 代 引起 的 弱 -0 依 赖 可 以 用 循环 测 离 消除 。 例 如 ， 考 虑 下 面 tomcatv 程 序 中 简化 
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的 循环 ， 此 程序 来 源 于 SPEC 基 准 测试 程序 包 : 


D0I=1,N 
S; YCI,N) = Y(1,N) + Y(N,N) 

ENDDO 

y 

fi) 
A(m) Oo 
UZ o e 
—¢,/a, Ni i 


图 3-4 弱 -0 SIV 下 标的 几何 视图 


55-0 SIV 测 试 能 确定 ，Y(1,N) 的 使 用 引起 一 个 从 第 一 个 选 代 到 所 有 其 他 迭代 的 循环 携带 
真 依赖 。 类 似 地 ， 借 助 于 符号 分 析 ， 弱 -0 SIV 测 试 能 发 现 Y(N,N) 的 使 用 引发 从 所 有 的 迭代 到 
最 后 一 次 迄 代 的 循环 携带 反 依赖 。 仅 在 引起 依赖 的 情况 下 标记 第 一 次 和 最 后 一 次 迭代 、 弱 -0 
SIV 测 试 能 通知 用 户 或 编译 器 剥离 循环 的 第 一 次 和 最 后 一 次 迭代 ， 得 到 下 面 的 并 行 循环 : 

Y(1,N) = YC1,N) + YCN,N) 
DOT =2, N-l 

S YCI,N) = Y(1,N) + YOUN 
ENDDO 
Y(N,N) = Y(1,N) + Y(N,N) 


55-32 LSIV aR 

a= -ai 下 的 下 标 称 为 弱 - 交 又 SIV。 在 这 些 情况 中 ， 化 简 分 析 是 对 称 的 ， 这 是 一 个 重 
要 的 性 质 。 假 设 直 线 斜 率 的 绝对 值 是 相同 的 ， 那 么 它们 总 是 以 相同 的 速率 从 给 定 的 一 点 “ 移 
动 "， 尽 管 一 个 是 向 上 移动 ， 而 另 一 个 门下 移动 。 其 结果 ， 这 两 条 直线 对 穿 过 它们 的 交点 的 重 
直线 是 对 称 的 〈( 见 图 3-5 )。 

由 于 这 种 对 称 性 ， 所 有 依赖 的 端点 是 在 一 个 交叉 点 (两 条 直线 的 交点 ) 的 相对 两 边 。 
Cholesky 分 解 中 就 出 现 弱 ~ 交 叉 SIV 下 标 ， 这 是 一 个 常见 的 例子 。 为 了 确定 交叉 点 的 位 置 ， 将 
‘iB Ripa, = - 代 换 ， 推 导出 

i= 226 (3-7) 

因为 所 有 的 依赖 跨越 交叉 点 ， 所 以 判断 依赖 是 否 存在 成 为 一 种 简单 的 检查 : 查 i 的 值 是 在 
循环 界 内 ， 并 且 是 一 个 整数 或 其 非 整 数 部 分 等 于 1/2。 条 件 中 出 现 第 二 部 分 是 因为 从 交叉 点 对 
称 地 移动 每 条 直线 的 结果 ; 如 果 访 点 不 在 两 个 整数 的 当中 ， 那 么 两 条 直线 不 能 在 x 轴 上 的 整数 


日 ” 指 源 点 和 汇 点 。 一 一 译 者 注 
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点 处 与 y 轴 上 的 整数 点 相交 。 用 一 个 例子 来 说 明 这 一 点 。 假 设 N 等 于 4 ， 则 我 们 有 下 面 的 i 和 
N 一 i 十 1 的 值 : 


对 称 线 


A(m) 




















~c\/a, Ni i 
图 3-5 弱 - 交 叉 SIV 下 标的 几何 视图 
交叉 点 
i: 1 2 3 4 
N-i+l: 4 3 2 1 


由 于 存在 依赖 ， 交 叉 点 必定 恰好 在 2.5。 
弱 ~ 交 又 SIV 依 赖 可 以 用 循环 分 裂 消 除 。 为 说 明 这 一 点 ， 考 虑 下 面 取 自 Callahan-Dongarra- 
Levine 向 量 测试 包 [57] 的 循环 : 


DOI=1,N 
Sı ACI) = A(N-I+1) + C 
ENDDO 


S-Z RSIVAR EEA EM SAE Ee. FE EAEL EN )/2, ix 
里 按 Fortran 语 义 需 要 对 非 整数 值 进行 截断 。 在 该 迭代 处 将 循环 分 裂 产 生 两 个 并 行 循环 : 
DO I = 1,(N+1)/2 
ACI) = ACN-I+1) + C 
ENDDO 
DO I = (Nt1)/2 + 1 ,NN 
A(I) = A(N-I+1) + C 
ENDDO 
弱 SIV 副 试 的 两 种 形式 对 测试 3.1.1 节 描述 的 耦合 下 标 也 是 有 用 的 。 在 3.3.2 节 末尾 描述 的 精 
确 SIV 测 试 能 用 于 任何 其 他 的 SIV 下 标的 精确 测试 。 
复杂 的 和 迭代 空间 
迄今 描述 的 SIV 测 试 已 被 应 用 到 和 托 形 迭代 空间 ， 其 中 所 有 的 循环 界 不 依赖 于 循环 值 本 身 。 
它们 不 能 直接 应 用 到 三 角形 循环 (其 中 循环 界 之 一 至 少 是 一 个 其 他 循环 索引 的 函数 )。 然 而 ， 
可 对 它们 加 以 扩展 ， 以 损失 一 定 精度 为 代价 使 其 可 以 应 用 到 这 样 的 循环 上 。 
为 了 了 解 如 何 做 到 这 一 点 ， 考 虑 循环 中 一 种 强 SIY 下 标的 特殊 情况 ， 其 中 的 上 界 至 多 是 一 
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个 其 他 循环 索引 的 函数 。 


DOI=1,N 
DO J=tl, +L, * I, U + U, * I 
Si A(J+D) =... 
S: ... = ACI) +B 
ENDDO 
ENDDO 


根据 强 SIV 测 试 ， 我 们 可 以 看 到 : 如 果 依 赖 距离 4 的 绝对 值 比 从 循环 下 界 到 循环 上 界 的 距 
离 小 ， 则 有 一 个 语句 52 对 语句 $1 的 依赖 ， 它 是 由 J 循环 携带 的 。 换 名 话说， 有 一 个 依赖 ， 如 果 
idl < Uo— Lot+ (U -LI 


因此 ， 如 果 ldl 小 于 不 等 式 右 端的 最 大 值 ， 我 们 能 假设 有 一 个 依赖 。 如 果 U 一 工 是 正 的 ， 当 I 取 
它 的 最 大 值 时 右 端 取 最 大 值 ; 否则 当 I 取 它 的 最 小 值 时 右 端 取 最 大 值 。 
但 是 这 并 未 告诉 我 们 整个 的 情况 ， 因 为 对 每 个 I 的 值 可 能 不 存在 依赖 。 特 别 ， 要 想 依赖 存 
在 ,我 们 必须 有 
p> AG. -mm) (3-8) 
U -L 
对 1I 的 其 他 值 ， 依 赖 不 存在 。 除 非 能 说 明 在 I 的 迭代 区 域 中 ，I 的 所 有 值 违反 不 等 式 ， 不 然 
我 们 必须 假设 在 循环 中 有 一 个 依赖 ， 因 为 对 I 的 某 个 值 将 有 一 个 依赖 。 在 这 种 意义 下 ， 依 赖 测 
试 是 精确 的 。 
另 一 方面 ， 由 于 对 所 有 的 值 不 发 生 依 赖 ， 我 们 能 用 表达 式 作为 在 5.7 节 中 讨论 的 索引 集 分 
裂 的 机 制 。 我 们 能 附加 上 条 件 
je AW. - 4) (3-9) 
U,-L, 
作为 消除 条 件 ， 它 是 一 个 谓词 ， 确 定 一 个 条 件 或 一 些 条 件 ， 在 其 下 依赖 不 存在 。 能 用 消 
除 条 件 对 一 个 语句 做 部 分 向量 化 。 例 如 ， 在 循环 


DO I = 1,100 
DO J = 1,1 
Si A(J+20) = ACJ) + B 
ENDDO 
ENDDO 


中 ， 使 得 下 面 的 消除 条 件 成 立 的 每 个 I 的 值 ， 语 名 SI 能 向 量化 : 
p< A-U -4 _ 20-(CD _ 
U -L 1 


因此 循环 供 套 能 再 分 成 两 个 储 套 : 
DO I = 1,20 
D0 J = 1,1 
Si A(J#20) = ACJ) + B 
ENDDO 
ENDDO 
DO I = 21,100 
DO 9 = 1,1 
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Sip A(J+20) = ACJ) +B 
ENDDO 
ENDDO 
其 中 第 一 个 骨 套 的 内 循环 能 向 量化 。 正 如 我 们 将 在 5.7.1 节 中 看 到 的 ， 也 能 用 索引 集 分 裂 对 第 
二 个 循环 向 量化 。 
对 弱 -0 测 试 ， 类 似 的 分 析 成 立 。 
DOI= 1,N 
DO J = Lotl; * I , UotU; * I 
Si A(c) = 
Sz = A(J) + 8 


这 里 仅 当 c 在 循环 界 内 ， 即 
loth <c<U st Ul 
有 一 个 依赖 。 对 所 有 的 两 个 不 等 式 成 立 的 I 值 ， 依 赖 在 在。 然而， 对 和 迭代 范围 内 I 的 任何 值 ， 
如 果 不 等 式 成 立 ， 我 们 必须 报告 这 个 依赖 ， 即 使 它 仅 在 由 下 面 不 等 式 给 出 的 I 值 的 非 空 循环 内 
成 立 : 
CU. gpg f= bo (3-10) 
如 果 不 等 式 的 无 论 那 一 端 分 母 中 的 项 是 0， 那 么 我 们 假设 在 那 一 端 是 无 界 的 。 
技术 上 讲 ， 如 果 在 一 循环 中 循环 索引 变量 有 一 上 界 或 下 界 ， 它 是 出 现在 相同 引用 偶 另 一 
个 下 标 中 的 另 一 循环 的 索引 ， 那 么 该 下 标的 位 置 是 耦合 的 。 为 了 看 清 为 什么 ， 考 虑 例子 : 
DO I = 1,100 
DO J= 1,I 
S, ACJ#20, I) = A(J,19) + B 
ENDDO 
ENDDO 
用 三 角形 强 SIV 测 试 ， 第 一 个 下 标 恰 似 我 们 较 早 的 例子 不 可 能 有 依赖 ， 除 非 1 > 21。 
应 用 弱 -0 测 试 于 第 二 个 下 标 ， 测 试 告 诉 我 们 仅 当 I=19 时 两 个 下 标 是 相等 的 。 因 此 ，、 虽 然 我 们 
假设 分 别 测 试 两 个 下 标 时 有 依赖 ， 但 可 能 没有 依赖 。 
具有 2 个 SIV 下 标 耦 合 的 例子 如 下 : 





DO I = 1,100 
DOJ=1,1 +19 
Sı A(1#20, J) = A(1,J) +B 
ENDDO 
ENDDO 
独立 的 SIV 下 标 测 试 指示 有 一 个 依赖 ， 距 离 向 量 为 (20，0)。 然 而 ， 我 们 注意 到 在 依赖 源 点 和 


汇 点 上 J- 循 环 的 先 代 区 域 是 不 相交 的 : 当 I=1 时 ， 语 名 $1 存 入 A(21,1:20)， 而 在 汇 点 上 ， 语 句 
$1 从 A(21,21:40) 读 入 。 因 为 在 两 个 存储 片 中 没有 公共 存储 单元 ， 故 不 可 能 有 依赖 。 

事实 上 ， 这 类 情况 很 少 发 生 ， 以 禾 不 值得 担心 。 然 而 ， 我 们 将 看 到 某 些 更 强 的 而 合 组 测 
试 ， 这 些 情况 很 容易 碰 到 。 
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符号 的 SIV 依 赖 测试 
当 所 有 涉及 到 的 所 有 项 是 编译 时 常数 时 ， 迄 今 已 介绍 的 多 数 依 赖 测试 是 精确 的 ， 但 是 对 
带 有 符号 量 的 情况 ， 它 们 不 能 很 好 地 对 付 。 有 少数 例外 : 例如 ， 假 设 能 用 符号 形成 和 化 简 差 
(c2 一 C1)， 然 后 就 像 一 个 常数 那样 使 用 ， 那 么 循环 不 变 的 符号 加 常数 便 得 到 了 人 处理。 符号 量 频 
繁 地 出 现在 下 标 中 起 因 于 程序 设计 的 实践 ， 诸 如 将 多 维 数组 传 给 一 个 过 程 ， 而 该 过 程 只 希望 
接受 一 个 一 维 数组 。 因 此 ， 符 号 测试 是 重要 的 。 
这 一 节 描 述 一 种 特殊 的 副 试 ， 它 副 试 包含 在 两 个 不 同 循环 的 相同 侍 套 层 上 引用 之 间 无 依 
赖 。 例 如 ， 这 种 测试 能 应 用 到 下 面 的 一 对 循环 上 。 
DI=L, U 
Sı A(a#l+c,) = ... 
ENDDO 
DO J = Lz, U: 
S2 ... = A(az*J+c3) 
ENDDO 


为 简单 起 见 ， 假 设 w 大 于 或 等 于 0。 如 果 满 足下 面 的 依赖 方程 ， 则 存在 一 个 依赖 
ai — aj 一 cz 一 Cl (3-11) 
WETAYAIIE, Li<i< UFL <j U;。 有 两 种 情况 要 考虑 。 第 一 种 情况 ，a, 和 as 可 能 有 相同 
的 符号 。 在 这 种 情况 下 ， 假 设 ari ~ ayj 对 i= ULAK, ti = LAY U2 取 最 小 值 (id 
住 c 和 c 是 非 负 的 )。 因 此 ， 仅 当 
aL, — a,U2< c2 ~c, © aU, aL (3-12) 
时 存在 依赖 。 如 果 违 反 任何 一 不 等 式 ， 则 依赖 不 存在 。 
在 第 二 种 情况 ，a! 和 a 有 不 同 的 符号 。 在 这 种 情况 下 ， 假 设 a1i - axyj 对 := Uj; 和 j= Us 取 最 大 
值 ， 所 以 仅 当 
aiLi—-asl S c2 ~ cı La, U, — aU, (3-13) 
时 存在 依赖 。 如 果 违 反 了 任何 一 个 不 等 式 ， 则 依赖 不 存在 。 
需要 注意 的 是 ， 这 些 不 等 式 正好 是 Banerjee 不 等 式 的 特殊 情况 ,在 3.3.3 节 中 将 介绍 
Banerjee 不 等 式 。 然 而 所 述 的 这 种 形式 显然 能 对 c1!，c;,，，L1，L，,，UVi 和 UU; 的 符号 值 公式 化 。 另 
外 ， 这 种 测试 还 能 用 来 测试 相同 循环 ( 即 L = 七 和 U1 = U2) 中 的 依赖 。 
作为 符号 测试 的 一 个 例子 ， 考 虑 下 面 的 循环 : 


DO I = N+1,2*N 
Si A(I+N) = A(T) +B 
ENDDO 


替换 方程 (3-13) 中 的 循环 界 ， 我 们 得 到 下 面 的 符号 不 等 式 : 
N+1-2N<0-N<2N-(N+4+1) 
化 简 成 
1-N< -N<N-1 
WRB BH BP BAT — EE (ULE ASE BRA), I - N 决 不 会 小 于 - N， 所 以 没有 
依赖 。 一 个 好 的 简化 式 将 会 捕捉 到 这 种 情况 ， 以 及 更 复杂 的 情况 。 
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消除 条 件 
用 另 一 种 方法 看 前 面 例子 ， 循 环 中 的 依赖 距离 是 符号 量 N。 为 了 看 清 这 一 点 ， 我 们 能 构 
成 由 强 SIV 测 试 给 出 的 依赖 距离 表达 式 。 因 为 在 循环 中 N 的 值 不 变 ， 所 以 有 一 个 符号 距离 是 可 
能 的 。 
现在 考察 与 前 面 例子 非常 类 似 的 循环 : 
DOI=1,L 
S, A(I+N) = ACI) +B 
ENDDO 
因为 变量 N 不 在 循环 上 界 中 出 现 ， 在 编译 时 我 们 不 能 判断 依赖 距离 实际 上 是 否 存在 ， 所 以 
我 们 必须 假定 它 存在 。 然 而 ， 我 们 知道 如 果 循 环 上 界 L 不 大 于 依赖 距离 的 话 ， 就 不 存在 依赖 。 
换 句 话说 ， 如 果 L<=N， 则 没有 从 语句 $1 到 自身 的 依赖 。 谓 词 “L<=N” 称 为 依赖 消除 条 件 。 许 
多 依赖 测试 程序 ， 当 面 对 像 这 样 简单 的 情况 时 ， 将 注释 为 依赖 ， 这 种 依赖 不 能 在 编译 时 用 消 
除 条 件 证 明 其 不 存在 ， 和 希望 以 后 能 用 运行 时 测试 或 者 从 程序 员 的 输入 消除 此 依赖 。 
在 上 面 的 例子 中 ， 疝 量化 程序 能 生成 选择 代码 ， 它 依赖 于 运行 时 消除 条 件 的 值 : 
IF (L <=N)THEN 
A(N+1:N+L) = A(1:L)+B 
ELSE 
DOI=1,L 
Si A(I+N) = ACI) +B 
ENDDO 
ENDIF 
用 循环 分 段 把 循环 恰好 分 为 N 段 能 进一步 改善 此 代码 ， 如 果 N 的 值 大 到 足以 使 向 量化 是 值得 做 
的 。 
另 一 个 有 趣 的 消除 条 件 起 因 于 弱 -0 测 试 ， 如 下 面 例子 所 示 : 


DOI=1,N 
S; A(I) = A(L) + B 
ENDDO 


假设 不 知道 N 和 L 的 值 之 间 的 关系 ， 弱 -0 测试 不 能 证 明 语 句 $1 没 有 自 依 赖 。 然 而 ， 依 赖 测试 程 
序 能 为 这 种 依赖 记录 下 消除 条 件 

(L<1) .OR. (L>N) 
能 用 它 有 条 件 地 向 量化 循环 。 


IF((L.LT.1).OR.(L.GT.N))THEN 
AC1:N) = ACL) +B 


ELSE 
DOI=1,N 
Sı A(I) = ACL) + B 
ENDDO 
ENDIF 


如 前 所 说 ， 对 串 行 循环 分 段 ， 能 进一步 改善 此 代码 。 
ZIV 测 试 也 提供 许多 使 用 消除 条 件 的 机 会 。 考 虑 下 面 的 循环 : 


DOI=1,N 
Sı ACL) = B(I) +C 
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S: B(I+1) = A(L+K) + X(I) 
ENDDO 
在 不 知道 L 和 K 在 循环 中 的 值 的 情况 下 ， 我 们 不 能 证 明 语句 $s 依赖 于 语句 $1 的 假设 不 成 立 。 然 而 
很 清楚 ， 除 非 K 为 0， 否 则 不 可 能 有 依赖 。 因 此 ， 谓 词 K. NE .0 是 依赖 和 依赖 环 的 消除 条 件 。 
消除 条 件 在 某 些 程序 库 中 特别 有 用 。 例 如 ， 在 LAPACK 线 性 代数 库 中 ， 一 个 基本 的 线性 
代数 子 程序 有 一 个 如 像 下 面 的 循环 段 : 
DOI = 1,N 
Si A(S+I) = A(S*I) + BCI) 
ENDDO ' 

这 里 变量 $ 保 存 循 环 的 跨 距 ( > 0)， 由 调用 程序 将 它 传 递 给 此 子 程序 。 在 大 多 数 程序 中 跨 
距 为 1。 然 而 ， 如 果 在 退化 的 情况 下 5=0， 则 循环 变 成 了 归 约 。 在 此 例 中 ， 依 赖 测试 程序 必须 
假设 从 语句 $1 到 自身 有 三 个 依赖 一 一 一 个 真 依赖 、 一 个 反 依 赖 和 一 个 输出 依赖 。 然 而 ， 这 些 依 
赖 都 有 相同 的 消除 条 件 5 .NE .0， 它 能 用 来 提供 选择 循环 的 版 本 ， 在 运行 时 可 选择 一 个 向 量 版 
本 和 一 个 归 约 版 本 。 

精确 的 SIV 测 试 

在 SIV 下 标 位 置 上 ， 下 标 具有 形式 

ai + ao#lbii+ bo 
通过 构造 线性 丢 普 图 方程 

ax — biy = bo — ao (3-14) 
的 全 部 解 ， 能 做 精确 的 测试 。 

此 方程 组 有 解 ， 当 且 仅 当 al 和 451 的 最 大 公约 数 整 除 bo - so。 众所周知， 计算 最 大 公约 数 的 

Enclid 算 法 ,可 以 将 它们 扩展 为 计算 ns 和 n,， 使 得 
na, + nbi = gcd(ai, bi) (3-15) 
一 旦 可 以 得 到 这 些 值 ， 下 面 的 公式 给 出 此 丢 番 图 方程 的 所 有 解 : 
b, ~ 4, b 


son 22) oa 
g 8 


y, -n (2) 448 
£ 8 


(3-16) 


这 里 对 每 个 k 的 整数 值 (xi, yx) 是 方程 ax- diy = bo 一 ao 的 一 个 解 。 另 外 ， 对 于 任何 一 个 解 
(x,y)， 存 在 一 个 k 使 得 x = x Filly = yx。 
单独 一 个 解 并 不 意味 着 有 依赖 。 依 赖 存在 ， 解 必须 出 现在 循环 上 下 界 指 示 的 区 域 中 。 对 
一 特殊 方向 向 量 和 给 定 的 循环 界 ， 确 定 是 否 存在 一 个 意味 着 有 依赖 的 解 ， 需 要 一 个 搜索 过 程 ， 
这 超出 了 本 书 的 范围 。 
3.3.3 多 归纳 变量 测试 
当 限 制 下 标 为 循环 归纳 变量 的 线性 函数 时 ，ZIV 下 标 和 SIV 下 标 是 相对 简单 的 从 Z (自然 
” 数 集合 ) 到 Z 的 线性 映射 。MIV 下 标 要 复杂 得 多 ， 是 从 2Z" 到 Z 的 线性 有 映射， 其 中 以 是 出 现在 下 
标 中 的 循环 归纳 变量 的 个 数 。 为 精确 地 确定 依赖 ， 这 种 增加 的 复杂 性 需要 更 高 级 的 数学 。 因 
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试 本 身 的 前 奏 。 
为 了 说 明 这 些 问 题 ， 让 我 们 考虑 循环 的 一 般 嵌 套 : 
DO i, = L,,U, , 
DO i: = b2,U, 
00 i, = Lr, Us 
S; A(F(i1,..., Ind) =... 
S2 ... = A(g(il,..., i,)) 
ENDDO 
ENDDO 
ENDDO 
判断 是 否 有 一 个 带 方向 向 量 D = (Du Da …, D,) 的 依赖 ， 等 价 于 判断 方程 组 
Jf, X2, wey Xn) = 801, yY2， see Yn) (3-17) 
在 由 
Lixa y,;< U;, Vi, 1<i<n (3-18) 
定义 的 空间 中 是 否 存在 一 整数 解 ， 其 中 由 于 方向 向 量 而 有 附加 的 限制 
xDy Vi, 1<i<n (3-19) 
(回顾 一 下 ， 方 向 向 量 的 每 一 项 是 “<”,，“= ”或 “> ”之 一 。) 令 R 表 示 由 方程 (3-18) 和 
(3-19) 定义 的 区 域 。 如 果 
A(X), X2, sees Xs Yis Y2s vee Yn) =f, X2, tee Xn) — 801, Y2, yn) =0 (3-20) 


在 区 域 R 内 某 处 有 一 整数 解 ， 则 方程 (3-17) 有 一 个 解 。 

因为 需要 的 是 整数 解 ， 此 问题 取决 于 丢 番 图 方程 理论 。 正 如 我 们 早先 提 到 的 ， 在 一 个 受 
限 的 空间 中 精确 地 解 丢 番 图 方程 是 困难 的 。 因 此 ， 寻 求 简化 方法 对 编译 器 是 有 益 的 ， 这 些 方 
法 不 精确 ， 但 提供 合理 的 精确 性 。 一 种 这 样 的 简化 方法 是 去 掉 解 是 整数 的 限制 ， 使 解 空间 是 
连续 的 ， 而 不 是 离散 的 。 换 言 之 ， 在 区 域 R 中 寻找 方程 (3-20) 的 实数 解 ( 或 更 精确 地 说 ,无 
实数 解 ) 是 有 益 的 。 如 果 方 程 无 实数 解 ， 那 么 它 不 能 有 整数 解 ， 并 因此 不 可 能 有 依赖 存在 。 
暂时 假设 函数 /hg 在 区 域 KR 上 是 连续 的 。 由 初等 分 析 直 接 得 到 下 面 的 定理 。 


定理 3.1 如 果 f 和 8 是 区 域 R 上 的 连续 函数 ,方程 (3-20) 存在 实数 解 ， 当 且 仅 当 


mingh < 0 < maxrh (3-21) 
证 明 从 中 值 定理 立即 可 得 结论 9。 
此 定理 是 几 个 依赖 测试 的 基础 。 
本 章 余 下 的 部 分 假设 /和 hg 是 两 个 仿 射 函数 ; 即 它 们 有 形式 
fis Xas -=s Xn) = Ag FAX HF FAK (3-22) 


四 ”严格 地 讲 ， 区 域 R 必 须 是 封 六 的， 以 便 用 最 大 值 和 最 小 值 替换 下 确 界 和 上 确 界 。 对 于 本 书 中 的 应 用 来 说 ， 


所 有 区 域 将 是 封闭 的 。 
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B91 Yos o-s Yn) = bo + biyi +... Fn (3-23) 
而 求解 的 依赖 问题 是 在 区 域 R 上 求解 线性 丢 番 图 方程 
ao — bot+axi— Diy, +... + apXn — bryn = 0 (3-24) 
GCD 测 试 
重新 排列 方程 (3-24) 的 项 产生 方程 
aX — by, +... +.anX, — bY, = bo ~ do (3-25) 


它 是 线性 丢 番 图 方程 的 标准 形式 。 线 性 委 番 图 方程 作为 广泛 研究 的 课题 已 有 几 百 年 。 关 于 这 
些 方程 的 一 个 基本 定理 是 下 面 的 定理 : 


.定理 3.2 GCD 测 试 方程 (3-25) 有 一 个 解 ， 当 且 仅 当 gcd(ay, .…, a,, bi, .…, bE 
除 bo — aoo 


因此 ， 如 果 循 环 归纳 变量 的 所 有 系数 的 gcd 不 能 整除 两 个 常数 附加 项 之 差 ， 那 么 方程 根本 
不 可 能 有 和 解 一 一 因此 无 依赖 存在 。 另 一 方面 ， 如 果 系 数 的 gcd 确 实 整除 bo - ao， 则 在 某 处 有 一 
个 解 ， 虽 然 不 需要 它 是 在 我 们 关心 的 区 域 KR 内 。 
当 对 特定 的 方向 向 量 D= (Di, …, D,) 做 测试 时 ， 它 的 某 些 方 向 是 “=”， 这 个 条 件 可 以 更 
加 严格 。 假 设 被 测试 的 依赖 的 方向 向 量 是 D， 并且 仅 有 一 个 “=” 分 量 D;,， 则 任何 可 接受 的 解 
必须 有 x;=y:， 使 方程 
aixi— biyi +... + (ai— bi) Xit + Ant, — brys = By — Ay (3-26) 
成 立 。 显 然 ，gcd 应 包含 (a; 一 5;)， 并 且 不 含 a; 和 4b;， 在 这 种 情况 下 结果 稍微 精确 一 些 。 在 一 般 
情况 下 ， 应 实施 一 个 类 似 的 替代 条 件 ， 即 正 被 测试 的 方向 向 量 的 任何 位 置 上 均 是 “=”。 
很 清楚 ， 根 据 这 种 意见 3.3.2 节 中 描述 的 强 SIV 测 试 是 定理 3.2 中 GCD 测 试 的 一 种 特殊 情况 。 
Banerjee 不 等 式 
虽然 GCD 测 试 在 某 些 情况 下 极为 有 用 ,但 是 它 不 适合 作为 通用 的 依赖 测试 。 理 由 是 实际 
上 遇 到 的 大 多 数 gcd 是 1， 它 整除 任何 整数 。 另 外 ， 每 当 依赖 方程 无 论 在 何 处 而 恰好 不 在 区 域 R 
中 有 一 个 整数 解 时 ，GCD 副 试 指出 有 依赖 。 从 公用 下 标 时 出 方程 组 通常 在 某 处 有 整数 解 ， 即 
使 解 不 在 我 们 关心 的 区 域 中 。 考 虑 用 迭代 极限 消除 此 问题 的 一 种 测试 是 Banerjee 不 等 式 。 
在 /和 8 是 仿 射 国 数 的 情况 下 ， 从 定理 3.1 直 接 可 得 到 Banerjee 不 等 式 : 
h(xX1, X2, 二 0 一 pa 一 六 十 十 Con — bnyn (3-27) 
在 介绍 此 测试 之 前 ， 需 要 某 些 预备 定义 和 表示 法 。 


定义 3.1 Gh =maxg hi(xi, yi) 和 hi =ming h(x, y), HP 
h(xi, yi) = a byi (3-28) 
并 且 区 域 Ri 由 不 等 式 
Li <x, Yi SU XD; (3-29) 
定义 ， 其 中 刀 是 第 ;个 位 置 上 的 方向 向 量 元 素 。 
换血 话说 ， 记 是 一 个 区 域 上 函数 有 的 最 大 值 ， 而 hi 是 最 小 值 。 为 了 使 这 些 值 是 有 用 的 ， 必 
须 用 某 种 方法 计算 它们 。 下 面 的 定义 有 助 于 达到 此 目的 。 
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定义 3.2 令 a 是 实数 ，a 的 正 部 表示 为 41+， 用 表达 式 


at =if a>0 then a else 0 (3-30) 
给 出 。a 的 负 部 表示 为 a-， 用 表达 式 
a =ifa > 0 then 0 else —a (3-31) 
给 出 。 
a’ Fila” 都 是 非 负 的 ， 并 且 下 面 的 关系 成 立 : 
a=at-a™ (3-32) 


根据 这 些 定义 ， 可 证 明 下 面 的 引 理 。 
引 理 3.1 令 :，s 和 z 表 示 实 数 。 如 果 0< z<s， 则 
—ts<itz<t's 
男 外， 存在 值 z，z; 使 得 
tz1= - 1-s 和 tz2=1+s 
证 明 情况 1: !>0。 在 这 种 情 说 下 上 =1 和 5 =0。 所 以 不 等 式 满足 ， 因 为 0< tz < 
titz<t+s。 由 于 0 < z<s， 在 这 种 情况 z) =0 和 z2=s。 
情况 2: :<0。 在 这 种 情况 下 1+ =O = -~t。 因 此 ， 不等式 变 为 -1 s< -1 z= 
tz<0, 
且 我 们 有 zi =s 和 zz=0。 
下 一 步 将 不 等 式 推广 到 任意 的 界 。 
引 理 3.2 令 1:，!，u 和 z 表 示 实 数 。 如 果 1<z<u， 则 
—tutels<estu-tl 
并 且 存 在 值 z z, E43 
tz = -t u+ t'lẸñtz=ttu—-t l 
证 明 假设 /<z<x。 重 排 各 项 ， 给 出 0<sz-1<x-!。 引 理 3.1 则 给 出 
—-ttu-D)<tze-D<rru—-D) 
再 次 重 排 各 项 产生 
—t ut+(ttrt Ktz<ttu-— (t-il 
重 排 方 程 (3-32) 给 出 
tt+={t+t Fie Ett -t 
不 等 式 由 此 证 明 。z 和 zz 的 存在 直接 从 引 理 3.1 推 出 。 
这 个 不 等 式 提供 证 明 关 于 h 的 最 小 值 和 最 大 值 的 重要 结果 的 基础 。 然 而 ， 在 开始 之 前 ， 我 
们 需要 介绍 一 些 术 语 。 
定义 3.3 EH; (DMH D) (其 中 DD 是 一 方向 ) 定义 如 下 : 
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H; (<)= —(a; +b)*(U;- 1) +[(a; +b) +47 VL; - b; 

Hi(<)=(ait — b)*(U;- 1) — (ai — 6) +a 1-8; 

Hi (=) = — (a;— 6) U; + (a, — b;)* Li; 

H} (=) =(a,— 6)* Ui- (a bi) Li 

H (>) = - (@;- bi) (U; - 1) + Ma; - b7)* +b; ]Li+ a; 

Ht (>)=(a;+b; )*(U;- 1) — [ay t+b; > +b IL; +4; 

H; (#) = -a Ui tat L -bt Ui +b; L} 

Hj (=a; Uj -a Li +b; U -bi B 
EPL, U, GUERAND E AP RR AIL RRA DA EA 
下 界 的 不 同 循环 中 的 情况 。 


在 方向 “*” 的 定义 中 这 样 使 用 不 同 的 上 界 和 下 界 ， 许 可 处 理 像 下 面 的 情况 : 
00 I = 1,100 
DO J = 1,50 
S, ACL, J) = B(I,J) +€ 
ENDDO 
DO J = 51,100 
S: A(I,J) = A(I,J) + D 
ENDDO 
ENDDO 


因为 第 一 个 和 第 二 个 循环 的 迭代 区 域 不 相交 ， 所 以 S: 和 3$: 无 依赖 。 人 允许 上 界 和 下 界 是 不 同 的 ， 
这 使 得 可 能 捕捉 到 用 Banerjee 不 等 式 的 这 种 情况 。 


引 理 3.3 令 hi(xi, yi) = a,x; — biy;, 并 且 R; 是 由 方程 (3-29) Li Xi, yi Ui 和 
XD 一 一 描述 的 区 域 。 则 hh 的 最 小 值 和 最 大 值 由 
max,h,;=h} =H} (D) (3-34) 
i, PAN He 3.34. 
证 了 明 情况 1: D= “=”, 在 这 种 情况 下 L; < x;=y.< LU。 在 方程 中 用 xi 替换 得 
到 : 
L,<x;< U; 
h;= a,x; — by, = (a; ~ 6) x; 
应 用 引 理 3.2 产 生 想 要 的 不 等 式 。 因 为 引 理 3.2 保 证 在 R 内 存在 一 些 点 、 在 这 些 点 上 获 
得 左 端 和 右 端的 值 ， 结 论 得 证 。 
情况 2: D= “<”。 在 这 种 情况 下 Li<xi<yi< Ui。 为 了 使 用 引 理 3.2， 不 等 式 需 
要 变换 成 
LE; <x; <y;- I< U;-1 
ÆR, h (被 最 小 化 和 最 大 化 的 量 ) 由 下 式 给 出 : 
hi=axi— by; =ax;— byi~ 1) — b; 
引 理 3.2 应 用 到 Li < x; y~ ik, 能 消去 xi: 





和 Away 


-a;i (yi7 1) +ař Li — biyi- 1) - b; <h; 
<a yı- 1)-a; Li- bi- 1)-b, 
接着 应 用 引 理 3.2 到 L< y; -1< UV; 一 1 上 ， 消 去 y;: 
-= (ar +b) *(U;~1)+ (a7 +b) Li+af Li- b;< h; 
< (a; -b)+ (U:- 1) - (at - b) Li- a; L; - b; 
它 证 实 了 这 种 情况 的 结论 。 引 理 3.1 再 一 次 保证 在 R 内 存在 一 些 点 ， 在 这 些 点 上 出 现 
最 小 值 和 最 大 值 。 
情况 3: D= “>”。 在 这 种 情况 下 < y< U;。 首 先 将 不 等 式 转换 成 
Li y,<x,-1<U;-1 
重 排 /产生 
hi=axi— biy:=aix;i— 1) ~ b;y:+ a; 
应 用 引 理 3.2 消 去 yi: 
adx;- 1)-bi(x-1)+bi L; +4; <h; 
Lax 1) +b; (x; 1)- bf LL; +a; 
BUR S| FAS | B32 Hex: 
—(a,— by, ~ 1) + (a; — bf) tL, +b; Li+ a;< hi 
< (a;+ b; )*(U;- 1) ~ (a+b) LL; - b7 L; +4; 
这 正 是 想 要 的 不 等 式 。 
情况 4: D= “*”。 在 这 种 情况 下 <xi< Ui，D < yi< 下 ，x 和 yi 之 间 没 有 隐 含 的 
关系 。 对 表达 式 h=axi - by 两 次 应 用 引 理 3.2 产 生 不 等 式 
Hi (*) < hi < Hi (*) 
由 于 引 理 3.2 保 证 在 R 内 存在 某 些 点 ， 在 这 些 点 上 出 现 最 小 值 和 最 大 值 ， 证 实 了 这 
种 情况 的 结果 。 


因为 中 的 每 一 项 涉及 到 一 个 不 同 的 归纳 变量 ， 每 一 项 能 独立 地 最 大 化 和 最 小 化 。 这 就 产 
生 了 下 面 的 重要 结果 。 


O ESS ”Banerjee 不 等 式 A=0 (方程 (3-20)) 对 方向 向 量 D=(D, Ds, ..., D,) 
存在 一 个 实数 解 ， 当 且 仅 当 满足 下 面 两 端的 不 等 式 : 


$HD) <b -a< 3 4;D) (3-35) 
证 明 依赖 方程 对 /提供 了 下 面 的 公式 : 
h=a,-b, + =a, -b, + Yeas, -by,) 
于 是 能 应 用 引 理 3.3 使 4 最 小 化 和 最 大 化 : 


min, h =a, -b, + YH) 
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max, h =a, -b, +Š HD) 


将 这 些 公式 代入 定理 3.1 中 方程 (3-21) 的 不 等 式 ， 并 且 从 不 等 式 的 三 部 分 减 去 ao ~ bo 
就 得 到 想 要 的 结果 。 


处 理 Banerjee 不 等 式 中 的 符号 
在 前 一 节 中 我 们 介绍 了 一 种 方法 ， 用 来 处 理 简 单 的 SIV 和 ZIV 测 试 中 的 符号 量 。 这 里 我 们 
将 说 明 如 何 用 Banerjee 不 等 式 测试 将 符号 集成 到 MIV 测 试 中 。 我 们 主要 关心 的 将 是 存在 循环 的 
符号 上 界 和 下 界 。 在 此 项 任务 中 ， 将 使 用 三 条 原则 : 
(1) 除非 显 式 说 明 步 长 为 - 1， 我 们 可 以 假设 下 界 不 大 于 上 界 。 如 果 不 是 这 样 的 话 ， 依 赖 
测试 是 不 切实 际 的 。 
(2) 0 乘 一 个 未 知 值 (在 这 种 情况 下 ， 指 一 个 循环 上 界 或 下 界 ) 的 积 总 是 0。 
(3) 如 果 一 个 循环 上 界 或 下 界 不 受 上 述 规则 的 限制 ， 那 么 必须 假设 它 取 任意 值 。 所 以 我 
们 能 对 依赖 测试 做 出 可 能 最 坏 的 假设 。 
在 我 们 将 使 用 的 依赖 油 试 策略 中 ， 第 一 条 原则 让 我 们 消除 任意 小 的 循环 上 界 值 ， 或 任意 
大 的 循环 下 界 值 。 例 如 ， 如 果 我 们 有 循环 
DO I= 1,N 
00 J= 1,M 
DO K= 1,100 
ACI,K) = A(I+J,K) + B 
ENDDO 


ENDDO 
ENDD0 


我 们 知道 N 和 WM 必 须 至 少 等 于 1。 假 设 我 们 正在 对 方向 向 量 (=,*,*) 进 行 测试 。 注 意 
aq=1; a,=0; b=1; b;=1 
在 Banerjee 不 等 式 中 对 第 一 个 下 标 位 置 (我 们 不 需要 Kk- 循 环 ， 因 为 k 不 出 现在 该 下 标 中 ) 使 用 
这 些 值 给 出 
Ay (=)+ H, (*) 
= —- (a-b) U, + (a, — by) + L, — (ay +2") U2 + (a + by Ly 
=-(1-1 N+(1 —-1)*1-0+)DM+(04+0)1= -M 
< by —ag=1-1=0 
< Hi'(=)+H2'(*) 
= (a, — b,)* U,- (a, ~b) Li + (a + ba") U2 — (ay + by*) Ly 
<(1-1)*N-(1-1)71+(0+0)M-(04+1)1=-1 
右边 的 不 等 式 不 成 立 ; 因此 不 存在 依赖 。 注 意 ， 此 结果 是 由 第 二 个 原理 得 到 的 一 一 两 个 包 
含 符号 上 界 的 项 系数 为 0。 在 左边 ， 我 们 必须 假设 不 等 式 成 立 ， 因 为 - M 可 以 是 一 个 任意 的 大 
负数 ， 但 是 它 不 得 大 于 一 1。 
梯形 Banerjee 不 等 式 
至 今 介绍 的 Banerjee 测 试 ， 假 设 循环 伐 套 中 所 有 循环 的 上 界 和 下 界 与 其 他 循环 归纳 变量 的 
值 无 关 。 然 而 ， 不 是 所 有 的 循环 会 满足 此 要 求 ， 实 际 上 经 常 遇 到 的 是 循环 伐 套 的 内 循环 的 迭 
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代 范 围 依赖 于 外 循环 索引 的 值 。 下 面 是 一 个 这 样 的 例子 : 


DO I = 1,100 
DO J = 1,I-1 

Si A(J) = A(I+J-1) + C 
ENDDO 

ENDDO 


在 这 种 情况 下 ， 内 层 循环 不 含 携带 依赖 ， 因 为 对 一 给 定 的 I 值 ， 左 端的 引用 落 在 子 数组 
A(1:I-1) 中 ,而 右 端的 引用 落 在 子 数组 A(I1:I*2-2) 中 。 由 于 这 两 个 子 数组 不 相交 ， 故 对 方向 
向 量 (=,*) 不 存在 依赖 。 然 而 ， 如 果 在 Banerjee 不 等 式 中 替换 系数 的 值 

a,=0; a=1; b=1; b,=1 
我 们 得 到 
A, (=)+ H, (*) 
= ~ (a, — bı) U, + (a, — by) *L, — (a + b2*)U2 + (a + by Ly 
= —(0-1)°(100)+(0 - 1)+1 —- (+1) - 1) +1 +0)1 = —I- 100 
€ by - ag =1~-1=0 
< Hy" (=) +2" (*) 
= (a, — b\)* U, — (a, — by) Li+ (ant + by U2 — (ay + b2*)L, 
< (0 — 1)*(100) — (0 - 1)-1+0. +0) - 1)-(0+1)1=1-3 
由 于 I 取 大 于 3 的 值 时 ， 这 些 不 等 式 确实 能 得 到 满足 。 因 此 必须 假设 有 依赖 。 

问题 是 目前 公式 化 的 Banerjee 不 等 式 不 能 利用 循环 归纳 变量 在 上 界 表达 式 中 的 值 。 为 了 缓 
解 此 不 足 之 处 ， 我 们 将 推导 出 一 个 特殊 的 Banerjee 不 等 式 形式 ， 我 们 称 之 为 梯形 Banerjee 不 等 
式 ， 所 以 这 样 命名 是 因为 它 处 理 梯 形 循环 。 

让 我 们 从 假设 上 界 和 下 界 表 达 式 能 重 写成 循环 归纳 变量 的 仿 射 组 合 开始 : 


i-t i-t 
U, =U 9 + > Ui L,=Ly+ > L,i, (3-36) 
i” J= 


想 要 的 结果 是 一 个 修改 的 Banerjee 不 等 式 , 它 考虑 了 这 些 界 表达 式 。 这 个 结果 不 是 简单 明了 的 ， 
因为 对 每 个 循环 求 最 小 值 和 最 大 值 不 再 与 其 他 循环 无 关 。 例 如 ， 在 最 内 层 循环 上 求 最 小 值 和 
最 大 值 可 能 修改 与 外 层 循环 关联 的 系数 。 

为 了 理解 这 一 切 是 怎样 发 生 的 ， 考 虑 Hi (<) 的 求 值 。 根 据 引 理 3.2 最 小 化 六 产生 


H; (<) = -(a; +6) (U, -1 +$u) 
To (3-37) 
+ [Car +b.) +a ba +S ui) -b, 


其 中 i 可 以 是 x 或 yy;， 只 要 它 在 单 重 求 和 中 始终 是 这 一 个 或 是 那 一 个 。 遵 照 引 理 3.3 中 对 情况 2 的 
证 明 ， 的 于 是 在 第 一 一 步 中 引入 的 ， 用 来 消除 x;， 并 产生 
-ar 1) tat Li- bly; — 1) -beh, 
<a; Oi- 1) 一 a; Li 一 bi(yi— 1)- b; 
因此 ， 对 xz 求 和 应 当 在 上 式 左边 对 下 界 乘 以 or 而 在 右边 乘 以 sc 。 当 消除 剩余 的 项 时 ， 对 y 
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使 用 上 界 和 下 界 是 适当 的 。 因 此 最 后 的 表达 式 是 


H; (<) = -(a; + by (v -1+ SU,y, 


+(a, +o (be +51) (3-38) 


j—] 
sd 人 + Su] -b, 
a 


RB ABO Aly, (1 <j <i) 用 在 最 小 化 hi 中 必须 用 方程 (3-38) 中 相应 的 项 校准 。 对 不 等 
式 的 最 大 值 方面 的 系数 也 必须 做 类 似 的 校准 。 

图 3-6 (连同 图 3-7 至 3-10) 包含 对 任何 方向 向 量 求 梯形 banerjee 不 等 式 的 算法 。 注 意 求 值 
不 等 式 是 从 最 内 层 循环 开始 并 向 外 移动 。 在 每 一 级 更 新 不 等 式 累 加 的 左 端 和 右 端 ， 然 后 在 需 
要 时 校准 对 应 于 外 层 循环 的 系数 。 这 些 不 等 式 左边 的 系数 存放 在 临时 数组 4 和 8B 由 中 ， 而 4,[] 
和 有 .0 存放 不 等 式 右边 的 系数 。 


boolean function Banerjee(D) 
/ A 四 是 最 小 方面 中 使 用 的 已 校准 的 系数 a 
1/ Bi 是 最 小 方面 中 使 用 的 已 校准 的 系数 b; 
1 4, 中 是 最 大 方面 中 使 用 的 已 校准 的 系数 a 
1/ 8B, 四 是 最 大 方面 中 使 用 的 已 校准 的 系数 b; 
11 Vnn 是 累加 的 Banerjee 左 端 
| Vnar 是 累加 的 Banerjee 右 端 
for i := 1 ton do begin 
Alli) : =a; Afi): =a; Bli] : = b; B,fi] : = b; 
end; 
Vmin : = 0; Vma : = 0; 
for i : =n to 1 do begin 
ifD,= “=” then 
ComputePositionEqual(Vmins Vmax, Ar, Bi, Ar, B,); 
else if D;= “<” then 
ComputePositionLessThan(Vminy Vmax» An, By, Ar, B,); 
else if D,= “>” then 
ComputePositionGreaterThan(Vminy Vnax, An Bi, Ar, B,); 
else if D;= “*” then 


ComputePositionAny(Vinins Vax» At, Bi, Ar, B,); 


end; 
if Vmin < bo — ao and bo — ao S Vmax then return true else return false; 


end Banerjee 





图 3-6 梯形 Banerjee 不 等 式 求 值 
注意 ， 对 方向 “*” 的 测试 假设 在 依赖 的 源 点 和 汇 点 上 我 们 可 以 有 不 同 的 循环 界 。 这 是 从 
要 求 在 没有 相交 的 迭代 范围 的 分 离 循 环 中 消除 有 端点 的 依赖 推导 出 来 的 。( 见 前 一 小 节 对 
“Banerjee 不 等 式 ” 的 讨论 。) 在 这 种 情况 下 ， 我 们 假设 每 一 个 出 现 有 不 同 的 上 界 和 下 界 表 达 
式 : 
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PIF 


procedure ComputePositionEqual(Vminy Vmax At, Bi, Ar, B,) 
1 Ali) ee Be) j ie FA Be ER Bea, 
1/ Bi] 是 最 小 方面 中 使 用 的 已 校准 的 系数 户 
/4 是 最 大 方面 中 使 用 的 已 校准 的 系数 4 
1/ B, 中 是 最 大 方面 中 使 用 的 已 校准 的 系数 bi 
II Vnm 是 累加 的 Banerjee 左 端 
H Vmax 是 累加 的 Banerjee 右 端 

Vmin © = Vmin — (Adi) — Bili})~ Ui + (Ali) - BIA) La; 
Vmax := Vmax + (A-[i] — B,[i]}* Uo — (ALi) ~ BLA)” Lio; 
nU :=0;nL:=0; 
Hv(<)= -1,v(=)=0 和 v(>)=1 
for j := 1 to i-1 do begin 
nL :=nL+L,v(D,); nU :=nU + UD); 
end 
if nL <0 then 
for j :=1 to i- 1 do begin 
/ 为 更 新 B 而 反 号 
BD : = BU) - (Ali) — Bi) * Ly ; 
BY) : = 8,1 + (ALi) - BI) Ly ; 
end 
else 
for j :=1 to i- 1 do begin 
Aff] : =A] + (Adi) ~ BLD + Ly 5 
AU]: =A,L/ — 4.0) -BAD Ly + 
end 
end 
if nU <0 then begin 
for j :=1 to i-1 do begin 
Aly] := Aly] - (Adi) ~ BUD U; ; 
AL] : = ALi] + (ALi — BA) Uy 5 
end 
else begin 
for j:= 1 to i-1 do begin 
// 为 更 新 B 而 反 号 
Bij) := BO + (Ali) — Bl) Uy 5 
Bj) : = BU) ~ (ALi) ~ BD? Uy ; 
end 
end 
\ end ComputePositionEqual 





图 3-7 方向 为 “= ”的 梯形 Banerjee 不 等 式 


i-l i-l 

Us =U} + 2 Uix, Lalit 2 Lx, (3-39) 
i-l i-l 

U’ =U} + > Uy, De=Dt+ > Ly, (3-40) 


当然 ， 如 果 两 个 出 现 都 在 相同 的 循环 内 的 话 ， 这 些 值 将 是 相同 的 。 
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procedure ComputePositionLessThan( Vnin, Vmax» At, Bi, Ar, B,) 
H Alil, Billi}, Ala, BAÈ CRAEN HB 
I V ninde 3 mi Banerjee Z in 
/ Vnar 是 累加 的 Banerjee 右 端 
Vmin := Vmin ~ CALE] + BME) (Uo — 1) + (Adi + BED +A)Lo — Bdil); 
Vmax © = Vmax + (ALi — BLED * (Uo — 1) - CALEY ~ BLA + AT Le — BALD; 
for j :=1 to i-1 do begin 


/ 为 更 新 8 而 反 号 
Alf] : 5AL + Adi) * Lig 
Bj} : = B+ (Ali + BLD Uy (Ali + BAA) Li 
AL): = AL] -ALi Lis 
BA}: = B,U] — (Ai BAD) Uy + ALA? — BLD Ly; 
end 
end ComputePositionLessThan 





图 3-8 方向 为 “< ”的 梯形 Banerjee 不 等 式 


procedure ComputePositionGreaterThan(Vmin, Vmax» An Bi, Ar, By) 
1 Ali), Bilt), Ali), BADE REN KR 
I V minte R pi Banerjee Æ in 
I1 Vmax 是 累加 的 Banerjee 右 端 
V min := Vmin — (A — Billi] *)~ (Uo— 1) + CALE] — BLA*)* + BN Lo + Ali]; 
Vmax := Vmax + (A li] + BL] ) (Uio ~ 1) ~ (AL + BLE") + Bi * Lin + Adit]; 
for j :=1 to i-1 do begin 
// 为 更 新 B 而 反 号 
Bij) := BUD- BL Li; 
AU] : = AL) — (Adi) Bl) Uy + CAL] — Bilt] *)* Ls; 
BD] := BY) + BL 
Aj): = A, UJ + (ALi) + BL )* Oy AALi] + Bi ) Ly 
end 


end ComputePositionGreaterThan 





图 3-9 方向 为 “> ”的 梯形 Banerjee 不 等 式 


procedure ComputePositionAny( Vins Vnar, An Bi, Ar, B,) 
1 Adil, Bld, ALA, 83 是 已 校准 的 系数 
II V minde R mh Banerjee £ Yi 
I Vnax 是 累加 的 Banerjee 右 端 
V min := Vmin ` Alli] Ui + Ali Lio — Bl?* Uw + BiN Lin’ 
V mar := Vmax + A Lilt Uo -Al Lo + BLE)” Uw — B,[i] * Lie’ 
for j :=1 to i-1 do begin 


// 为 更 新 8 而 反 号 
AÑ] : = AU] ~ Adi] UF + Ai tLe 
B] : = BA) + Bilt Ur- BL) Li 
ALi] : =A [+ Ait U7 -AAD Ls; 
BD : =B,0] ~ Bi U? + Bi) * Li; 
end 


end ComputePositionAny 





图 3-10 方向 为 “*” 的 梯形 Banerjee 不 等 式 
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正确 性 ”为 了 说 明 函 数 Banerjee 的 正确 性 ， 我 们 必须 先 说 明 图 3-6 中 由 函数 Banerjee 计 算 的 

Vmin 和 Vmax 值 ， 使 得 
Vmin t Qo — bo < minghFllmaxgh < Vmax + Ao — bo 

换 句 话说 ， 如 果 Banerjee 返 回 false， 则 无 依赖 存在 。 对 于 D;= “<”, D= “>” AD = “*” 
的 情况 ， 沿 着 方程 (3-37) 和 (3-38) 讨论 中 描述 的 直线 对 外 层 循环 调整 系数 ， 直 接 从 定理 
3.3 的 证 明 可 得 。 事 实 上 ， 根 据 引 理 3.3 不 等 式 对 于 这 些 方向 都 是 精确 的 。 

惟一 难以 处 理 的 情况 发 生 在 D;= “ =” 时。 在 这 种 情况 下 ， 下 面 的 表达 式 对 H; (=) 和 Hi (=) 
是 有 效 的 : 


H-(=)=-(a -b, (Ue + 5 v,i) +(a - by (Le + 5 Li) 
T 7 (3-41) 


H‘ (=)=(a, -by (Us $u) - (a, -b (Le +S hi 


问题 是 依赖 的 源 点 和 汇 点 可 以 有 不 同 的 上 界 和 下 界 ， 因 为 外 循环 索引 在 源 点 和 汇 点 上 的 值 很 
可 能 是 不 同 的 (除非 所 有 外 层 循 环 方向 都 是 “=”)。 因 为 需要 xi=y:， 所 以 依赖 不 能 存在 ， 除 
非 z% 大 于 两 个 下 界 和 小 于 两 个 上 界 。 遗 憾 的 是 ， 简 单 地 将 两 个 求 和 的 最 大 值 代 回 方程 式 不 会 对 
外 层 循环 产生 有 意义 的 系数 。 因 此 ， 必 须 选 择 一 个 下 界 和 一 个 上 界 ， 丢 失 一 些 精 度 。 

选取 保持 尽 可 能 高 精度 的 上 界 和 下 界 需 要 一 种 智能 的 试探 方法 。 因 为 方向 向 量 是 已 知 的 ， 
所 以 能 对 


nL = S LD) 和 nU= SUD) 


求 值 ， 其 中 
-1， 如 果 D;= “<” 
VCD)=4 0, 如 果 D;= “=” 
1， 如 果 D; 二 “>” 
如 果 nL< 0， 则 y 的 下 界 很 可 能 大 于 x 的 下 界 ， 所 以 使 用 方程 (3-41) 中 的 下 界 。 类 似 地 ， 如 果 
nU<0， 则 x 的 上 界 很 可 能 比 y: 的 上 界 小 ， 所 以 使 用 方程 (3-41) 中 x 的 上 界 。 在 函数 Banerjee 
的 代码 中 ， 这 种 试探 方法 ( 它 是 精确 的 ， 如 果 只 有 一 个 非 零 Ly 的 话 ) 是 多 分 支 调整 的 根源 。 
回 到 例子 上 ， 主 要 的 循环 常数 有 下 列 值 : 
a,=0; a=1; b,=1; b,=1 
Nio=99; No=—1; Na=1 
梯形 Banerjee 不 等 式 对 这 种 情况 不 成 立 ， 我 们 把 验证 留 给 读者 。 
测试 所 有 的 方向 向 量 
为 使 依赖 测试 有 用 ， 应 当 在 给 定 的 语句 偶 之 间 构 造 依赖 方向 向 量 的 完全 集 。Burke 和 
Cytron 首 创 了 一 个 实现 这 种 构造 的 有 效 算法 [49]。 算 法 包含 的 基本 思想 是 从 测试 方向 向 量 最 一 
般 的 集合 开始 ， 然 后 逐步 细 分 测试 ， 每 当 显示 出 不 可 能 存在 方向 向 量 的 完全 集 时 ， 做 修剪 。 
图 3-11 例 示 这 个 思想 (算法 本 身 再 现 于 图 3-12 中 )。 这 里 通过 对 (*，*，*#) 测试 ， 此 过 程 证 
实 某 些 依赖 存在 ， 然 后 对 第 一 个 位 置 上 的 方向 单独 测试 来 细 分 测试 。 如 果 取 得 任何 成 功 ， 则 
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对 第 二 个 位 置 上 的 不 同方 向 做 测试 ， 进 一 步 细 分 测试 ， 如 此 等 等 。 


图 3-12 中 所 示 的 测试 是 通过 函数 try 实 现 的 ， 用 全 是 


D:=(*, *, ..., *); dvlist: =try(D, 1, Ø); ) VARIA 
数 。 然 后 每 当 一 次 测试 成 功 时 该 函数 递归 地 调用 
Ac. 

虽然 在 最 坏 的 情况 下 ， 此 过 程 有 与 穷 举 测试 
相同 的 渐进 复杂 性 ,但 在 一 般 情况 下 ， 每 当 沿 着 
一 个 特殊 的 分 支 测 试 表明 没有 依赖 存在 时 ， 通 过 
修剪 树 能 有 效 地 减少 测试 的 开销 。 

3.4 耦合 组 中 的 测试 

可 分 下 标 使 用 的 测试 也 能 用 于 耦合 组 的 每 个 
下 标 上 : 如 果 任 何 测试 证 明 无 依赖 ， 则 没有 依赖 
存在 。 然 而 ， 我 们 已 在 3.1.1 节 中 看 到 ， 在 耦合 组 
中 逐个 下 标 测试 可 能 产生 假 的 依赖 。 

一 个 比 逐 个 下 标 测 试 稍 强 的 方法 是 单独 地 出 
试 每 个 下 标 ， 并 对 得 到 的 方向 向 量 集合 求 交 集 
[283]。 这 对 3.1.1 节 中 的 例子 是 有 效 的 : 

DO I = 1,100 
Sı A (I+1,1) = B(I) +€ 
S: D(I) = ACI,I) * E 
ENDDO 
这 里 测试 第 一 个 下 标 产生 方向 向 量 ( < ) ， 而 在 
第 二 个 位 置 上 测试 产生 方向 向 量 (=)。 当 求 这 些 
方向 的 交 时 ， 我 们 发 现 不 能 存在 依赖 。 


“*” 的 方向 向 量 和 一 个 空 集 dvlist ( 即 


(*,*,*) 

(<,*,*) (=,*,*) (>,*,*) 
(<,<,*) (<,=,*) (<,>,*) 
(<,=,<) (<,=,=) (<,=.>) 


图 3-11 对 所 有 的 方向 向 量 作 测试 


set function try(D, k, dvlist) 
if not Banerjee(D) then return dvlist; 
if k=n then return dvlist » {D}, 
ford:= “<”, “=”, “>” do begin 


D;:= 4d; 
dvlist :=try(D, k+ 1, dvlist), 
end 
end try 





图 3-12 MIV 方 向 向 量 测试 


这 个 方法 允许 简单 而 有 效 的 测试 ， 在 某 些 情况 下 还 提供 一 种 保守 的 近似 于 耦合 组 中 的 方 
向 集 。 就 是 说 ， 它 可 能 产生 依赖 不 存在 的 方向 向 量 。 例 如 ， 考 虑 循环 


DO I = 1,100 
Sı A(I+1,I+2) = A(I,I) + C€ 
ENDDO 


用 方向 向 量 交集 做 逐个 下 标 测试 会 产生 单个 方向 向 量 (< ，< )。 然 而 ， 细 心 检查 此 语句 





发 现 这 个 方向 向 量 是 无 效 的 ， 因 为 实际 上 没有 依赖 存在 一 一 这 对 下 标 不 能 同时 发 生 相同 的 方向 。 
为 了 回答 此 问题 ， 我 们 强调 依赖 测试 是 对 相交 的 距离 向 量 而 不 是 方向 向 量 。 当 应 用 SIV 测 试 
到 上 面 的 例子 时 ， 两 个 下 标 产 生 两 个 不 同 的 距离 向 量 :(1) 和 (2)。 这 两 个 距离 向 量 的 交 显然 是 
空 的 。 这 种 策略 极为 有 效 ， 因 为 实际 上 很 大 比例 的 这 种 依赖 测试 是 强 SIV 测 试 ， 它 产生 的 是 距离 。 
许多 研究 人 员 在 多 下 标 测试 方面 做 了 研究 工作 [202，266，286]。 多 数 研究 工作 集中 在 一 
些 快速 方法 上 ， 用 它们 来 判断 联 立 线性 丢 番 图 方程 是 否 能 有 一 个 解 。3.4.2 节 中 提供 此 项 研究 
工作 的 一 个 概述 。 


3.4.1 Delta 测试 
这 一 节 我 们 讨论 一 个 简单 直观 的 策略 ， 称 为 Delta 测 试 ， 用 来 测试 多 下 标 中 的 依赖 。 设 计 
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的 Delta 测 试 对 普通 的 而 合 下 标 是 精确 而 又 有 效 的。 图 3-13 给 出 算法 的 概貌 。 


procedure Delta_test(subscripts, DVset, dV) 
1/ subscripts ~A2BANWSIV A REMIV FR 
1 DVset 是 一 个 输出 参数 ， 包 含 所 有 的 方向 向 量 
1/ dV 是 一 个 输出 参数 ， 包 含 已 知 的 距离 向 量 
while 在 subscripts 中 存在 未 被 测试 的 SIV 下 标 do begin 
应 用 SIV 测 试 所 有 未 被 测试 的 SIV 下 标 ， 
返回 无 依赖 或 推导 新 的 约束 向 量 C 
C:=CNC 
if C'=@then 返回 无 依赖 ; 
else if CC' then begin 

C=C; 


传播 约束 C 到 MIV 下 标 ， 
也 许 创建 新 的 ZIV 或 SIV 下 标 ; 

应 用 ZIV 测 试 于 未 被 测试 的 ZIV 下 标 上 ， 
返回 无 依赖 或 继续 ; 


end 


end 
while 存 在 未 被 测试 的 RDIV 下 标 do 
测试 并 传播 RDIV 约 束 ; 
测试 余下 的 MIV 下 标 并 将 得 到 的 方向 向 量 与 C 求 交集 ; 
从 C 构 造 DVset 和 dV; 
end Delta_test 





图 3-13 Delta 测 试 算法 


Delta 测 试 包 含 的 主要 思想 是 建立 起 关于 距离 向 量 交集 的 直觉 。 因 为 在 实践 中 发 现 多 数 下 
标 是 SIV， 并 且 在 多 数 情况 下 SIV 测 试 是 简单 而 精确 的 ， 所 以 从 中 收集 到 的 信息 能 用 来 化 简 相 
同 耦 合 组 中 其 他 下 标的 测试 。 在 Delta 测 试 中 ， 我 们 检查 耦合 组 中 的 每 个 SIV 下 标 ， 产 生 一 些 
约束 条 件 并 能 传播 给 相同 耦合 组 中 的 其 他 下 标 。 通 常 传播 结果 是 一 种 简化 ， 它 产生 一 个 精确 
的 方向 向 量 集合 。 因 为 在 科学 计算 的 Fortran 代 码 中 多 数 耦 合 下 标 是 SIV ， 所 以 Delta 测 试 是 一 
个 实用 、 快 速 和 在 多 数 情况 下 精确 的 多 下 标 测试 。 

名 称 “Delta 测 试 ” 是 缘 于 用 AI 的 非 形 式 用 法 表示 I- 循 环 中 源 点 索引 和 汇 点 索引 之 间 的 距 
离 。 因 此 我 们 假设 在 依赖 源 点 上 的 索引 是 1 的 一 个 特定 的 值 ， 而 在 汇 点 上 的 索引 是 此 相同 的 值 
加 上 距离 : I+ Al. 

为 了 看 清楚 Delta 测 试 是 如 何 工作 的 ， 考 虑 一 个 简单 的 例子 : 


DO I = 1,100 
DO J = 1,100 
S; A(I+1,I+J) = A(I,I+J-1)+C 
ENDDO 
ENDDO 


如 果 我 们 将 SIV 测 试 应 用 到 第 一 个 下 标 上 ， 得 到 的 距离 为 1， 即 AI=1。 根 据 第 二 个 下 标 我 们 有 
方程 
Iot J= Io 十 AI +J + AJ -1 
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此 方程 通过 用 源 点 上 索引 的 增加 值 替 换 汇 点 上 的 索引 而 导出 。 如 果 我 们 将 AI=1 代 入 此 方程 ， 
得 到 
Io 十 Jo=Io 十 1 十 Jo 十 AU -1 


现在 我 们 消去 常数 值 16: 和 J。， 化 简 得 到 
AJ=0 


因此 仅 有 的 一 个 合法 的 距离 向 量 是 (0,1)， 仅 有 的 合法 方向 向 量 是 (=“《)。 

本 质 上 我 们 在 第 二 个 下 标的 依赖 测试 中 所 做 的 是 析 取 出 I 因子 ， 转 换 到 下 面 对 51 的 测试 : 

DO I = 1, 100 
DO J = 1, 100 
S; A(I+1,J) = ACI,J) + C 
ENDDO 
ENDDO 

注意 ， 我 们 已 经 用 强 SIV 下 标 将 一 个 MIV 下 标 降 至 强 SIV 形 式 。 

Delta 测 试 可 用 于 检测 无 依赖 ， 若 它 的 组 成 成 分 SIV 和 测试 检测 出 无 依赖 的 话 。 否 则 它 将 所 
有 的 SIV 下 标 转 换 成 约束 ， 并 将 它们 传播 到 凡是 可 能 的 MIV 下 标 中 。 重 复 此 过 程 直至 找 不 到 新 
的 约束 。 然 后 这 些 约束 传播 到 耦合 的 RDIV 下 标 中 。 测 试 余下 的 MIV 下 标 并 且 将 得 到 的 结果 与 
现存 的 约束 求 交集 。 下 面 几 小 节 更 详细 地 研究 Delta 测 试 。 

约束 

在 本 书 的 上 下 文中 ， 约 束 是 对 索引 的 断言 ， 它 对 存在 的 依赖 必须 成 立 。 已 知 对 依赖 的 联 
系 ， 约 束 通常 是 从 下 标 推导 出 来 的 。 作 为 一 个 例子 ， 依 赖 方程 应 用 到 下 标 《aii 十 ci, aitc) 
上 ， 对 索引 i 产生 约束 aii 一 4azi'=cz 一 c1。 另 一 个 简单 约束 的 例子 是 依赖 距离 。 

约束 向 量 C =(6,, 62,.…, 6,) 是 一 个 向 量 ， 它 对 于 掀 合 下 标 组 中 n 个 索引 的 每 一 个 索引 有 一 个 
约束 。 在 Delta 测 试 中 ,约束 向 量 用 来 存放 从 SIV 油 试 中 产生 的 约束 。 因 为 SIV 下 标的 简单 性 质 ， 
这 些 约束 能 很 容易 转换 成 距离 向 量 或 方向 向 量 。 

一 个 约束 6 可 能 有 下 列 形式 : 

„RAER: 表示 依赖 方程 的 一 条 直线 (axtby=c). 

。 依 赖 距离 依赖 距离 的 值 (d); 它 等 价 于 依赖 直线 (x 一 y= -dd)。 

。 依 赖 点 : 表示 从 迭代 x 到 友 代 > 的 依赖 的 一 个 点 (x，y)。 
从 强 SIV 测 试 和 弱 SIV 测 试 直接 导出 依赖 距离 和 依赖 直线 。 依 赖 点 是 从 相交 约束 得 到 的 结果 ， 
如 下 一 小 节 的 描述 。 

相交 约束 

因为 从 所 有 下 标 得 出 的 依赖 方程 对 任何 存在 的 依赖 必须 同时 有 解 ， 所 以 对 每 个 下 标 相交 
约束 能 改善 精度 。 如 果 交 集 是 空 集 ， 则 不 可 能 有 依赖 。 这 似乎 有 些 背 离 直观 ， 因 为 术语 “ 约 
束 ” 通 常 隐 含 一 种 限制 或 抑制 ， 因 此 对 依赖 缺少 有 关 索 引 的 约束 似乎 会 隐 含 所 有 的 依赖 可 能 
存在 。 记 住 这 个 重要 的 事实 ， 约 束 实际 上 是 逻辑 表达 式 ， 当 某 个 依赖 存在 时 ， 它 保证 为 真 。 
如 果 没 有 这 样 的 逻辑 表达 式 ， 那么 就 不 可 能 存在 依赖 。 我 们 已 经 看 到 了 应 用 到 方向 向 量 和 耦 
合 SIV 下 标 上 的 约束 相交 。 

最 容易 求 交 的 是 依赖 距离 ， 做 法 是 简单 地 对 距离 做 比较 。 如 果 距 离 不 全 相等 ， 则 它们 不 
能 同时 成 立 ， 因 而 没有 依赖 存在 。 例 如 ， 正 如 我 们 早先 在 循环 候 套 中 
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DOI= 1,N 
Sı A(I+1,I+2) = A(I,I) +C 
ENDDO 
所 见 到 的 ， 强 SIV 测 试 应 用 到 第 一 个 下 标 上 ， 呈 现 出 依赖 距离 为 1; 应 用 到 第 二 个 下 标 上 ， 呈 
现 出 依赖 距离 为 2。 通 过 对 它们 做 比较 ， 实 现 将 两 个 约 东 求 交 。 它 们 是 不 相等 的 ， 产 生 空 集 做 
为 约束 集合 ， 证 明 无 依赖 。 这 反映 了 这 样 的 事实 : 代入 左边 下 标的 任何 值 i， 不 能 比 代 入 右边 
下 标的 任何 i 值 同时 小 于 1 和 2。 
其 至 SIV 下 标 中 的 复杂 约束 也 能 精确 地 求 交 。 因 为 从 一 个 SIV 下 标 导 出 的 每 个 依赖 方程 可 
以 看 成 是 二 维 平面 上 的 一 条 直线 , 从 多 SIV 下 标 求 约 束 交 对 用 于 计算 平面 上 多 条 直线 的 相交 点 。 
如 果 在 循环 界 内 这 些 直线 不 交 于 一 个 公共 点 ,或 者 此 点 的 坐标 没有 整数 值 ， 则 没有 依赖 存在 。 
如 果 所 有 依赖 方程 相交 于 单个 依赖 点 ， 则 它 的 坐标 实际 上 是 引起 依赖 的 仅 有 两 个 选 代 。 
DO 1 =1,N 
Sı A(I,I) = A(1,I-1) + C 
ENDDO 
在 这 个 例子 循环 中 ， 测 试 A 的 一 对 引用 中 的 第 一 个 和 第 二 个 下 标 ， 分 别 推导 出 依赖 直线 
<“I=1> 和 《TI=I-1>。 这 两 条 依赖 直线 相交 于 依赖 点 1,2>， 表 示 仅 有 的 依赖 是 从 第 一 次 迭代 到 
第 二 次 迭代 。 因 为 能 精确 地 实施 计算 平面 上 直线 的 相交 ， 约 东 交 和 集 是 精确 的 。 
这 里 将 不 给 出 完全 约束 交集 算法 ， 因 为 推导 是 直截了当 的 。 


约束 传播 

约束 传播 的 目标 是 用 从 测试 一 个 下 标 中 获取 有 用 的 信息 ， 改 善 相 同 耦 合 组 中 其 他 下 标的 
依赖 测试 。 这 里 我 们 将 讨论 与 约束 关联 的 几 个 问题 ， 以 及 它们 在 耦合 测试 中 的 使 用 。 

SIV 约 束 ”Delta 测 试 的 一 个 主要 贡献 是 它 有 能 力 将 从 SIV 下 标 中 推导 出 的 约束 传播 到 耦合 
下 标 中 ， 通 常 不 丢失 精度 。 然 后 ， 得 到 的 带 约束 的 下 标 能 受到 更 有 效 和 更 精确 的 测试 。 虽 然 
这 里 我 们 将 不 介绍 一 个 完全 约 东 传播 算法 ， 但 是 很 容易 构造 它 。 这 样 一 个 算法 的 目标 是 利用 
对 每 个 索引 的 SIV 约 束 ， 来 消除 那个 索引 在 目标 MIV 下 标 中 的 距离 。 为 使 此 算法 更 加 具体 ， 考 
察 下 面 的 例子 : 

DO I 
DO J 
Sı A(I+1,I+J) = A(I,I+J) 
ENDDO 
ENDDO 

强 SIV 测 试 应 用 到 数组 A 的 第 一 个 下 标 上 ， 揭 示 索 引 I 的 依赖 距离 为 ‘41>。 将 此 约束 传播 到 
第 二 个 下 标 中 ， 消 除 I 的 两 个 出 现 ， 结 果 为 带 约 束 的 SIV 下 标 <J-1,J>。 强 SIV 测 试 应 用 到 此 下 
标 上 给 出 -循环 的 距离 是 -1。 由 于 它 完 成 了 对 所 有 下 标的 测试 ， 也 就 完成 了 Delta 测 试 。 合 并 
约束 向 量 的 元 素 给 出 一 个 依赖 ， 具 有 距离 向 量 (1,-1)。 

在 这 个 例子 中 约束 传播 是 精确 的 ， 因 为 带 约束 下 标 中 索引 I 的 两 个 距离 被 消除 了 。 经 验 研 
究 f123] 表 明 这 是 科学 计算 代码 中 频繁 出 现 的 情况 。 通 常 此 算法 只 能 消去 索引 的 一 个 出 现 。 当 
测试 耦合 组 时 ， 此 结果 改善 了 精度 ， 但 不 是 精确 的 。 如 果 需 要 的 话 ， 可 以 获得 额外 的 精度 ， 
做 法 是 利用 此 约束 去 简化 余下 的 索引 的 区 域 ， 如 Fourier-Motzkin 消 去 法 [244] 所 做 的 那样 。 

Sia ”迭代 Delta 测 试 算法 ， 看 MIV 下 标 是 否 简化 为 SIV 下 标 ， 因 为 这 样 的 动作 可 产生 新 的 
约束 。 下面 的 循环 媒 套 为 我 们 提供 一 个 例子 : 
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DO I 
DO J 
DO K 
Sı A(J-I, I+1, J+K) = A(J-I, I, J+K) 
ENDDO 
ENDDO 
ENDDO , 
EDeltaMhik i—i, WELA Pte, EILIA R A>. Ra RE 
束 传播 到 第 一 个 下 标 中 ， 得 到 下 标 人 Ju+1，J>。 
因为 已 经 建立 了 一 个 新 的 SIV 下 标 ， 算 法 重复 执行 。 在 第 二 壳 ， 测 试 新 下 标 ， 产 生 J- 循 环 
的 距离 为 1 。 然 后 此 约束 传播 到 第 三 个 下 标 中 ， 导 出 下 标 信 -1,K>。 新 的 SIV 下 标 引 起 另 一 遍 ， 
它 发 现 K- 循 环 的 距离 为 -1。 因 为 所 有 的 SIV 下 标 已 被 测试 、，Delta 测 试 在 这 个 点 停止 返回 距 
离 向 量 (1,1,-1)。 
改善 精度 ” Delta 测试 能 改善 在 余下 的 受 约束 MIV 下 标 上 所 做 的 其 他 依赖 测试 的 精度 。 
DO I = 1,100 
DO J = 1,100 
Sı ACI-1, 2*I) = ACI, I+J+110) 
ENDDO 
ENDDO 
Banerjee 不 等 式 应 用 到 此 例子 循环 的 下 标 上 ， 不 能 独自 证 明 无 依赖 。 通 过 首先 将 最 左下 标 
转换 成 一 依赖 距离 约束 人 -1>， 然 后 此 约束 传播 到 最 右 下 标 中 产生 受 约束 的 MIV 下 标 42,J- 
I+110>， 它 能 由 Banerjee 不 等 式 成 功 地 处 理 〈( 即 检测 出 无 依赖 )，Delta 测 试 对 这 一 点 有 改善 。 
DO I 
DO J 
Sı A(I,2*J+I) = A(I,2*J-I+5) 
ENDDO 
ENDDO 
类 似 地 ， 在 此 例子 循环 中 ，GCD 测 试 表明 对 两 个 下 标 有 整数 解 。 然 而 ， 将 从 第 一 个 下 标 得 到 
的 I 的 距离 约束 <0> 传 播 到 第 二 个 下 标 中 ， 产 生 受 约束 的 MIV 下 标 <2*J,2*J-2*I+5>。 现 在 
GCD 测 试 能 检测 无 依赖 ， 因 为 所 有 索引 系数 的 GCD 是 2， 它 不 能 整除 常数 项 5。 
距离 向 量 ”Delta 测 试 对 产生 硬 合 组 中 MIV 下 标的 距离 向 量 特别 有 用 。 下 面 的 循环 傣 套 作 
为 例证 ， 显 示 数 字 代码 中 相当 常见 的 一 个 模式 ， 在 变换 后 能 改善 并 行 性 : 
DO I = 1,N 
DO J = I+1,I+N 
Sı A(I,J-I) = A(I-1,J-I) + C 
ENDDO 
ENDDO 
例如 ， 在 此 例子 中 由 于 在 第 二 个 位 置 的 MIV 下 标 ， 多 数 依赖 测试 不 能 计算 距离 向 量 。 然 而 ， 
Delta 测 试 允 许 精确 分 析 这 些 下 标 。 测 试 将 从 第 一 个 下 标 得 到 的 有 关 I 的 距离 约束 传播 到 第 二 个 
下 标 ， 推 导出 距离 向 量 (1,1)。 
受 限 的 DIV 约束 ”前 一 节 说 明 如 何 传播 SIV 约 束 。MIV 约 束 也 可 以 传播 ， 但 是 在 一 般 情 况 ， 
传播 的 代价 昂贵 。 然 而 ， 在 耦合 的 RDIV 下 标的 特殊 情况 下 (在 3.1.1 节 介绍 )， 我 们 介绍 一 个 
方法 ， 用 来 处 理 一 种 重要 的 特殊 情况 。 为 简明 起 见 ， 只 考虑 下 面 这 种 类 型 的 数组 引用 : 
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DO i 
DO j 
S, A(ii+cl，iz+cz) = A(i3+c3，i4+c4) 
ENDDO 
ENDDO 


当 记 Lj 和 i 是 索引 i 的 两 个 实例 而 i 和 i 是 索引 j 的 两 个 实例 时 ， 从 第 一 个 下 标 推导 出 i 和 j 之 
间 的 一 个 约束 。 此 约束 可 以 传播 到 第 二 个 下 标 中 , 使 用 的 是 前 面 讨论 过 的 用 于 SIV 下 标的 算法 。 
另外 要 考虑 的 只 是 1 和 j 的 界 可 能 有 差别 。 ， 

更 一 般 的 情况 ，i. 和 i 是 索引 i 的 实例 ，i, 和 i 是 索引 j 的 实例 。 在 这 种 情况 下 得 到 下 面 的 
依赖 方程 组 : 

ite, =j'+c3 
j 十 cz 一 十 C4 

当 检 查 依赖 时 ， 每 个 依赖 方程 可 被 单独 测试 ， 而 不 丢失 精度 。 然 而 ， 当 确定 距离 向 量 或 方向 
向 量 哪 一 个 是 可 能 的 时 候 ， 必 须 同时 考虑 两 个 方程 。 

将 索引 i 在 第 二 个 引用 中 的 实例 看 成 是 i+A;， 也 能 传播 这 些 约束 ， 其 中 A 是 i 两 次 出 现 之 
间 的 依赖 距离 。 用 相同 的 方式 处 理 索 引 jj， 产 生 下 面 的 依赖 方程 组 : 

i+t+ci=j+ A+cs 
Jto=itAt+c, 
将 这 两 个 方程 加 在 一 起 ， 并 稍微 重 排 一 下 各 个 项 ， 产 生 下 面 的 方程 : 
A+A=ci+cz 一 cs 一 c4 

当 对 一 特定 的 距离 向 量 或 方向 向 量 做 测试 时 ， 则 能 检查 此 依赖 方程 。 

为 了 更 具体 地 说 明 ， 考 虑 下 面 的 循环 例子 : 

DO I = 1,N 
DO J = 1,N 
Si A(I,J) = A(J,I) +€ 
ENDDO 
ENDDO 

传播 RDIV 约 束 得 到 依赖 方程 A+Ai=0。 因 此 距离 向 量 必须 有 (d,-d) 形 式 ， 并 且 仅 方向 向 量 
(<,>) 和 (=,=) 是 有 效 的 。 因 此 ， 所 有 的 依赖 是 由 外 循环 携带 的 ; 内 循环 可 以 并 行 执行 。 

精度 和 复杂 性 

Delta 测 试 的 精度 取决 于 被 测试 的 耦合 下 标的 性 质 。 在 第 一 阶段 中 应 用 的 SIV 测 试 是 精确 
的 。 约 束 求 交 算法 也 是 精确 的 ， 因 为 在 平面 上 任意 条 直线 相交 能 精确 计算 。 因 此 ，Delta 测 试 
对 任意 数量 的 耦合 SIV 下 标 是 精确 的 。 

在 约束 传播 阶段 ， 总 能 精确 地 应 用 弱 -0 SIV 约 束 和 依赖 点 ， 因 为 它们 对 下 标 中 出 现 的 索 
引 赋 值 。( 强 SIV 下 标 中 的 ) 依赖 距离 ， 当 相应 的 索引 系数 相等 时 ， 也 可 以 在 不 失 精 度 的 情况 
下 传播 到 MIV 下 标 中 。 所 幸 这 种 情况 在 科学 计算 代码 中 是 频繁 出 现 的 。 
”“” 当 约 束 能 精确 地 传播 ， 并 且 通 过 消除 共享 的 索引 解 辜 所 有 的 下 标 时 ，Delta 测 试 防 止 多 下 
标 丢 失 精 度 。 在 结束 上 时， 如 果 Delta 测 试用 ZIV 和 SIV 测 试 做 了 所 有 下 标的 测试 ， 那 么 答案 是 准 
确 的 。 如 果 仅 留 下 可 分 的 MIV 下 标 ， 则 Delta 测 试 受 到 应 用 于 每 个 下 标的 单 下 标 测 试 的 精度 限 
制 。 研 究 表 明 ， 对 单个 下 标 Banerjee-GCD 测 试 通常 是 准确 的 [32，184，201]， 所 以 Delta 测 试 
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对 这 些 情 况 很 可 能 也 是 准确 的 。 

Delta 测 试 的 不 精确 有 三 个 来 源 。 第 一 ， 依 赖 线 和 依赖 距离 的 约束 传播 可 能 是 不 精确 的 ， 
如 果 不 能 完全 消除 来 自 目标 下 标 中 两 个 引用 的 索引 的 话 。 第 二 ， 诸 如 三 角形 循环 这 样 的 复杂 
迭代 空间 可 以 迫使 Delta 测 试 不 使 用 下 标 之 间 的 约束 。 最 后 ，Delta 测 试 不 传播 来 自 一 般 的 MIV 
下 标的 约束 。 因 此 在 Delta 测 试 结束 时 可 能 留 下 耦合 的 MIV 下 标 。 在 这 些 情 况 下 ， 可 以 使 用 下 
几 小 节 中 讨论 的 ， 如 4 测试 或 Power 测 试 这 些 更 一 般 但 代价 很 大 的 多 下 标 依 赖 测试 。 

因为 对 耦合 组 中 每 个 下 标 最 多 做 一 次 测试 ， 所 以 Delta 测 试 的 复杂 度 是 下 标 数目 的 线性 关 
系 。 然 而 约束 可 能 多 次 传播 到 下 标 中 。 


3.4.2 更 强 有 力 的 多 下 标 测试 

许多 最 早 的 多 下 标 测试 利用 Fourier-Motzkin 消 去 法 ， 一 种 基于 逐 对 比较 线性 不 等 式 的 线 
性 规划 方法 。Kuhnf192] 和 Triolet 等 [261] 曾 述 凸 形 区 域 中 的 数组 访问 ， 可 以 用 Fourier-Motzkin 
消去 法 求 交 得 到 这 种 山形 区 域 。 也 可 以 用 这 种 区 域 对 整个 程序 段 汇 总 存储 访问 。 这 些 技术 很 
”灵活 但 代价 高 。Triolet 发 现 使 用 Fourier-Motzkin 消 去 法 做 滴 试 要 22 到 28 次 ， 比 传统 的 依赖 测试 
有 时间 长 [260]。 

Li 等 人 提出 的 A 测试 ， 是 Banerjee 不 等 式 的 多 维 形式 ，4 测 试 同时 检查 受 约束 的 实数 值 解 
[202] 。A 和 测试 构造 下 标的 线性 组 合 ， 消 除 一 个 或 多 个 索引 实例 ， 然 后 得 到 的 结果 用 Banerjee 不 
等 式 进 行 测 试 。 同 时 产生 的 实数 值 解 存在 ， 当 且 仅 当 Banerjee 不 等 式 在 生成 的 所 有 线性 组 合 中 
求 得 解 。 

4 测试 能 测试 方向 向 量 和 三 角形 循环 。 它 的 精度 也 可 以 应 用 GCD 或 单 索引 准确 测试 生成 的 
伪 下 标 得 到 增强 。 然 而 ， 没 有 明显 的 方法 扩展 A 测试， 以 证 明 整 数 解 同时 存在 。 如 果 无 约束 的 
整数 解 存 在 ， 并 且 索 引 变 量 的 系数 全 是 1，0 或 - 1， 那 么 A 测试 对 二 维 下 标 是 准确 的 [201]。 然 
而 ， 即 使 带 有 这 些 限 制 ， 对 三 维 或 更 多 的 耦合 维 ， 它 仍 是 不 准确 的 。 

Delta 测 试 可 以 看 成 是 和 测试 的 受 限 制 形式 ， 它 以 通用 性 换取 更 高 的 效率 和 精度 。 

因为 对 依赖 测试 线性 下 标 函 数 等 价 于 在 循环 界限 内 求 同 时 存在 的 整数 解 ， 因 此 一 种 途径 是 
使 用 整数 规划 方法 。 然 而 ， 使 用 这 些 方 法 必须 谨慎 ， 因 为 它们 很 高 的 初始 化 代价 和 很 长 的 运行 
时 间 一 一 它们 通常 有 指数 级 复杂 度 一 一 使 其 在 产品 系统 依赖 测试 中 不 适合 需要 ， 产 品系 统 在 一 
次 编译 过 程 中 要 应 用 依赖 测试 几 千 次 。 然 而 ， 如 果 使 用 时 小 心地 筛选 出 一 些 特 定 的 情况 ， 那 么 
它们 比 起 较 简单 的 方法 ， 能 有 效 地 消除 更 多 地 依赖 。 这 种 策略 早期 的 两 个 例子 是 Wallace 的 约 
束 - 和 矩阵 测试 (修正 的 整数 规划 单纯 形 算法 ， 以 及 Banerjee 的 多 维 GCD 测 试 )， 它 应 用 修改 的 整 
数 高 斯 消去 法 建立 一 个 紧凑 的 系统 ， 其 中 所 有 的 整数 点 约定 为 原 依 赖 系统 的 整数 解 [34]。 

增加 依赖 测试 能 力 的 第 三 种 策略 是 将 整数 规划 与 Fourier-Motzkin 消 去 法 组 合 在 一 起 ， 判 
断 依赖 方程 是 否 存 在 一 个 整数 解 。Wolfe 和 Tseng 的 Power 测 试 利用 Fourier-Motzkin 消 去 法 将 循 
环 界 应 用 到 从 多 维 GCD 测 试 得 到 的 稠密 系统 上 [286]。Power 测 试 的 代价 很 大 ， 但 是 适合 用 于 
提供 精确 的 依赖 信息 ， 诸 如 非 紧 从 循环 中 的 方向 向 量 ， 带 有 复杂 界 的 循环 ， 以 及 不 涉及 方向 
向 量 的 约束 中 的 依赖 信息 。 l 

Maydan，Hennessy 和 Lam[207] 提 出 一 种 依赖 测试 ， 已 在 SUIF 系 统 中 实现 ， 它 基于 整数 规 
划 方 法 使 用 一 串 特 殊 情况 的 精确 测试 。 如 果 所 有 的 特殊 情况 测试 失败 ， 则 用 Fourier-Motzkin 
消去 法 做 补充 测试 。 为 了 增加 这 种 测试 的 有 效 性 ， 它 们 用 一 张 表 维护 前 面 计 算得 到 的 测试 结 
果 ， 使 能 快速 识别 出 重复 的 测试 。 
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Pugh 的 Omega 测试 [228] 是 基于 Fourier-Motzkin 消 去 法 对 测试 整数 规划 的 扩展 。 自 身 是 想 
判断 依赖 方程 是 否 存在 一 个 解 ， 而 不 是 去 求 出 所 有 这 样 的 解 。 虽 然 此 过 程 有 可 能 是 指数 复杂 
E, 但 已 显示 出 有 较 低 的 复杂 度 ， 在 许多 情况 中 为 多 项 式 复杂 度 ， 往 往 更 廉价 的 方法 是 精确 
的 。Omega 测 试 还 能 用 来 将 整数 规划 问题 投影 到 变量 的 一 个 子 集 上 ， 而 不 仅仅 是 判定 它们 ， 
它 使 精确 计算 依赖 方向 和 距离 向 量 成 为 可 能 。 随 着 时 间 的 推移 ，Omega 测 试 已 发 展 成 一 种 通 
用 工具 ， 称 为 Omega 计算 器 ， 用 来 化 简 和 验证 Presburger 公 式 。 这 个 系统 能 用 来 解决 各 种 程序 
分 析 问 题 ， 包 括 消除 伪 依 赖 [229] 。 


3.5 实验 研究 

为 了 帮助 读者 理解 在 依赖 测试 的 真实 实现 中 考虑 的 某 些 折 惠 ， 我 们 介绍 由 Goff，Kennedy 
和 Tseng[123] 指 导 研 究 的 一 种 较 重 要 的 依赖 测试 的 若干 结果 ， 在 PFC 中 使 用 了 此 依赖 分 析 系 统 
[20]， 这 是 Rice 大 学 的 程序 分 析 系 统 。 

测试 时 ，PFC 使 用 了 本 章 中 描述 的 依赖 分 析 系 统 ， 包 括 下 标 划 分 和 下 面 的 依赖 测试 : ZIV 
(包含 符号 ) MR, SIV (符号 ) 测试 ， 对 特殊 情况 的 弱 SIV 〈 弱 -0， 弱 交叉 ， 精 确 ) 测试 ， 
MIV 测 试 《GCD， 具 有 单 循环 三 角形 性 质 的 Banerjee 不 等 式 )， 以 及 Delta 测 试 ( 带 有 一 般 的 约 
束 交集 ， 但 仅 传 播 距离 约束 )。 对 PFC 应 用 的 每 种 依赖 测试 ， 做 了 很 多 次 度量 研究 ， 当 时 处 理 
四 组 Fortran 程 序 : RiCEPS (Rice 大 学 编译 评估 程序 集 ) ，Perfect 和 SPEC 基 准 测 试 程序 集 [92 ， 
254]， 以 及 两 个 数学 库 EISPACK 和 LINPACK。 这 些 测 试 程序 集 包含 了 28 个 完整 的 程序 和 两 个 
大 的 子 程序 库 ， 有 986 个 子 程序 和 99 440 行 Fortran 77 代 码 。 表 3-1 总 结 了 每 种 依赖 测试 相对 于 
其 他 测试 的 效果 ， 以 每 一 种 测试 在 总 的 应 用 程序 数 、 成 功 次 数 和 无 依赖 个 数 中 所 占 的 百分比 
表示 。 对 此 表 而 言 ,“ 成 功 ”是 能 消去 一 个 或 多 个 方向 的 任何 测试 应 用 。 表 中 提供 的 百分比 是 
汇总 所 有 程序 的 结果 。 


表 3-1 依赖 测试 的 频率 和 效果 


SIV 


百分比 ZIV 强 弱 -0 弱 - 交 又 “精确 MIV Delta 使 用 符号 测试 
全 部 测试 44.7 33.9 6.7 0.7 0.1 5.1 8.4 一 
成 功 的 测试 30.9 51.8 7.6 0.6 0.2 26 60 28.5 
证 明 为 无 依赖 85.4 4.8 1.5 0.1 0.0 27 5.3 9.9 
每 个 应 用 的 成 功率 43.9 97.0 71.7 47.9 87.7 33.0 45.4 一 


每 个 应 用 的 无 依赖 率 43.9 3.2 5.2 3.9 0.0 12.4 14.3 


表 3-1 还 显示 了 每 种 测试 的 绝对 效果 ; 即 每 种 测试 证 明了 无 依赖 或 者 成 功 地 消除 了 一 个 或 
多 个 方向 向 量 的 应 用 百分比 。 

在 这 项 研究 中 ，PFC 应 用 依赖 测试 74 889 次 ( 占 所 有 下 标 偶 的 88%)。 如 果 下 标 侦 是 非 线 
性 的 (6%)， 或 者 在 相同 多 维 数组 中 对 其 他 的 下 标 测 试 已 证 明 为 无 依赖 ， 则 不 对 它们 做 测试 。 
在 测试 的 所 有 数组 引用 偶 中 ， 多 数 下 标 偶 是 ZIV (45%)， 或 强 STIV (34% )。 少 数 测试 过 的 下 
标 是 MIV (5.1%)。 多 数 成 功 的 测试 是 ZIV 和 强 ZIV 测 试 组 合 (83%)。ZIV 测 试 几乎 占据 了 证 
明 为 无 依赖 的 所 有 引用 偶 (85%). 

Goff，Kennedy 和 Tseng 还 报告 说 程序 中 多 数 下 标 是 可 分 的 。 耦 合 下 标 ( 占 总 体 的 20% ) 
集中 在 少数 几 个 程序 中 ， 特 别 是 EISPACK 库 ， 它 约 占 所 有 耦合 下 标的 75 色 。 在 8 499 个 耦合 组 
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中 发 现 大 多 数 是 两 个 ; Hikes =>. Delta Rk RE AR MIX £6 570 
耦合 组 ( 占 所 有 这 样 的 耦合 组 的 78% )。 在 376 个 测试 用 例 中 应 用 了 距离 约束 传播 〈 占 耦合 组 
的 4.4%)， 仅 在 28 个 测试 用 例 中 将 MIV 下 标 转换 成 SIV 形 式 。 因 此 使 用 Delta 测 试 精确 地 测试 了 
6 198 个 耦合 下 标 〈82% )， 仅 使 用 依赖 距离 的 约束 交集 和 传播 。 

结果 表明 SIV 和 Delta 测 试 精 确 地 测试 了 大 多 数 下 标 。MIV 测 试 ， 如 Banerjee-GCD 测 试 ， 
只 在 所 有 下 标的 一 小 部 分 (5%) 中 需要 用 它们 ， 但 是 对 某 些 程序 来 说 它们 是 重要 的 。 许 多 成 
功 的 测试 要 求 PFC 有 能 力 处 理 符 号 加 常数 (28.5%)。 

在 相关 的 研究 中 ，Li 等 人 说 明 在 诸如 EISPACK 这 样 的 库 中 ， 对 于 耦合 下 标 测试 ， 多 下 标 
测试 可 检测 到 的 无 依赖 比 逐 个 下 标 测 试 多 36% 的 测试 用 例 [202]。Shen 等 人 [247] 做 了 数组 下 标 
和 常规 依赖 测试 的 综合 实验 研究 。 

从 这 些 统计 中 ， 有 几 个 结论 是 显然 的 。 第 一 ， 在 提 到 的 框架 中 ，ZIV、 强 SIV、 弱 -0 SIV 
和 MIV 测 试 ， 以 及 某 种 形式 的 耦合 下 标 测 试 ， 对 精确 的 依赖 测试 是 基本 的 。 弱 -交叉 和 精确 的 
SIV 测 试 几乎 不 会 用 到 ， 但 是 当 调 用 它们 时 ， 显 示 出 它们 能 捕捉 到 重要 的 特殊 情况 。 然 而 ， 在 
依赖 测试 的 实现 中 ， 它 们 应 当 有 较 低 的 优先 级 。 因 为 在 超过 28% 的 测试 中 使 用 符号 测试 ， 未 
计 入 允许 符号 循环 界 (几乎 每 个 循环 ) 的 测试 ， 符 号 处 理 也 是 基本 的 。 

最 后 一 个 观察 到 的 结果 是 ， 调 用 MIV 和 复杂 的 耦合 下 标 测试 次 数 很 少 ， 所 以 使 用 某 种 更 
强 有 力 的 (更 大 代价 ) 测试 是 合理 的 ， 如 3.4.2 节 中 讨论 的 多 下 标 测 试 。 


3.6 各 种 测试 的 集成 

图 3-14 和 3-15 包 含 原先 在 3.2 节 中 描述 的 依赖 测试 算法 的 具体 形式 。 关 于 此 算法 有 几 个 重 
点 。 首 先 ， 正在 做 依赖 测试 的 每 一 对 数组 引用 ， 调 用 测试 程序 一 次 。 做 出 关于 哪个 引用 是 源 
点 和 哪个 引用 是 汇 点 的 假设 。 然 而 ， 依 赖 测 试 程序 完全 有 能 力 报 告 以 “>” 作 为 领头 方向 的 方 
向 向 量 。 在 这 种 情况 ， 调 用 过 程 将 颠倒 对 应 此 方向 向 量 的 依赖 含意 ， 并 反 转 依赖 的 方向 。 


boolean procedure test_dependence(R,, R, L, n, DVset) 
/Ri 和 R: 是 在 n 个 循环 集中 包围 着 的 源 点 和 汇 点 数组 引用 。 
1/ 工 是 一 组 循环 描述 符 (LDI, LD;, .…, LD,)， 其 中 每 个 描述 符 LD; 是 一 个 
1 四 元 组 UL, Un 5)， 分 别 表示 循环 索引 ， 下 界 、 上 界 和 步 长 
/ DVset 是 一 个 输出 变量 ， 表 示 两 个 引用 之 间 求 得 的 依赖 的 方向 向 量 集 。 
Ami: SURE TP tris BM H; 
分 配 S[1:m]， 下 标 偶 的 数组 ， 
for j := 1 to m do SLD] : = (R U], Ro); 
forj:=1 to m do 


linear{[j] := analyze_subscript(SD], nx[j), InI: nx{y]], . 
alj)[0: nxD]], bU] (0: mx 中]); 
1/ ing 76th BA, (EN VESL PB AR SOBA 


Partition(S, P, n,); 


/ P 是 一 个 输出 变量 ， 它 包含 一 组 划分 PLl:P]， 其 中 每 个 P[ 妇 是 该 划分 中 下 标的 集合 
DVset := {(*,*,....*)}3 


/ 首先 测试 所 有 可 分 下 标 


图 3-14 完整 的 依赖 测试 算法 
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for k:=1 ton, do 
if || P[k] | =1 then begin 
depExists = test_separable(P[{k], DVset); 


if not depExists then return depExists; 
end 


U 现在 从 头 到 尾 返 代 划 分 ， 再 次 测试 看 合 组 。 
fork:=1 ton, do 
if || P[k] | > 1 then begin 
InP : =Ø; 
for all jEP{K] do InP := InP U In{j]; 
depExists = Delta_test(P[k], DV, dV); 
if not depExists then return depExists; 
else merge_vector_sets(InP, DVset, DV); 
end 
return true; 


end test_dependence 





图 3-14 (4%) 


boolean procedure fest_separable(P, DVset) 
1/ P 是 下 标 划 分 ， 它 必须 至 少 包含 一 个 下 标 
/ DYVset 是 迄今 已 有 的 方向 向 量 集 


令 / 是 P 中 单个 下 标 划 分 ; 
if linear[j] then begin 
if nx[j] =0 then depExists = ZIV_test(a{j][0], b[j}[0)); 
else if nx[)] = 1 then 
depExists = SIV_testUin{j], a{j][0:1}, b[][0:1), DV, dV); 


else 


depExists = MIV_test(In{j), alj\(O:nx{j}}, bU/{O:nxLf]], DV, dV); 
if not depExists then return depExists; 


else begin 
merge_vector_sets(In[j], DVset, DV); 
return true; 
end 

end 

else return true; 


end test_separable 





图 3-15 可 分 的 下 标 测 斌 
为 了 理解 这 一 点 ， 考 虑 下 面 的 循环 : 


DOI=1,N 
So T = B(I,d) 
DO J = 2,N 

Si A(J-1) =T 


S2 T = ACJ) + B(I,J}) 
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ENDDO 
$s C(I) = C(I) + ACJ) 
ENDDO 
如 果 我 们 检查 由 于 对 数组 A 的 引用 而 引起 的 语句 $: 对 语句 S: 的 依赖 ， 那 么 我 们 可 能 将 引用 A(J- 
1) 作 为 R 传 递 ， 假 设 为 源 点 引用 ， 将 引用 A(J) 作 为 R; 传 递 ， 作 为 汇 点 引用 。 当 测试 程序 返回 
时 ， 将 产生 方向 向 量 集 (*,>)。 因 此 方向 向 量 的 完全 集 是 (<,>),(=,>) 和 (> ,>)。 第 一 个 方向 
对 应 由 外 循环 携带 的 真 依赖 ， 而 后 两 个 依赖 分 别 对 应 于 内 循环 和 外 循环 携带 的 反 依赖 。 在 得 
到 此 结果 后 ， 调 用 的 程序 会 报告 实际 的 依赖 集 是 一 个 具有 方向 向 量 (<,>) 的 真 依赖 ， 一 个 具有 
方向 向 量 (=,<《) 的 反 依赖 ， 和 一 个 具有 方向 向 量 (<,《) 的 反 依赖 。 注 意 ， 在 两 个 反 依赖 中 所 有 
的 方向 已 被 反 转 ， 当 一 个 依赖 的 含意 被 颠倒 时 ， 这 是 正确 的 操作 。 

此 种 产生 并 报告 所 有 方向 向 量 〈 即 使 是 不 合法 的 那些 方向 向 量 ) 的 策略 ， 对 每 个 不 同 的 
引用 偶 仅 许可 调用 测试 程序 一 次 。 因 此 ， 如 果 程 序 中 按 依赖 排序 的 引用 集 是 {R，R2:，…, Rw}， 
那么 在 驱动 程序 中 我 们 可 能 看 到 下 面 的 循环 : 

fori:=1toNdo 

for j : =i to N do begin 
depExists := test_dependence(R;, Rj, L, n, DVset); 
if depExists then begin 
H 记录 每 个 不 同 的 PV 作 为 图 中 的 一 个 依赖 
1/ 对 非法 的 DY， 逆转 依赖 的 意思 


end 
end 


预 分 析 ”test_dependence 先 要 做 的 事情 之 一 是 将 引用 偶 重 组 到 下 标 偶 集合 中 ，3 引 用 中 的 每 
个 位 置 上 是 一 个 下 标 偶 。 一 旦 完成 此 事 ， 为 每 个 下 标 位 置 调用 例 程 analyze_subscript。 该 例 程 
分 析 下 标 偶 并 判断 此 下 标 是 否 能 表示 成 包含 下 述 引用 偶 的 循环 索引 的 线性 组 合 : 
{aiii + Grint ... + anin + ao, bii, + Dyin +... + bnin + bo) 

如 果 报 告 此 下 标 偶 是 线性 的 ， 那 么 对 所 有 的 a; 和 4b 的 每 一 个 值 必须 是 常数 ,或 是 一 个 符号 表 
达 式 ， 它 的 值 在 此 循环 侯 套 中 不 变 。( 某 些 依赖 测试 程序 还 要 求 只 有 ao 和 bo 是 符号 .) 如 果 这 些 
下 标 不 能 变 成 正确 的 形式 ，analyze_subscript 报 告 此 下 标 是 非 线 性 的 ， 并 因此 不 能 测试 它 。 用 
返回 值 false 报 告 此 事 。 

过 程 analyze_subscript (在 此 我 们 将 不 详细 介绍 ) 需要 分 析 下 标 表 达 式 和 分 解 因 子 。 这 需 
要 做 大 量 工作 。 除 了 返回 布尔 值 外 ， 过 程 还 返回 在 下 标 中 实际 找到 的 循环 索引 个 数 (存储 在 
nx[ 四 中 )， 以 及 存储 在 In[j][0:nx[j]] 中 的 数组 ， 它 包含 找到 的 循环 索引 的 层 号 。 它 还 要 返回 在 
下 标 中 找 出 的 qi 和 5i 的 实际 值 (存放 在 数组 a[j][0:nxD] 和 bj[0:nxD]] 中 )。 因 此 ， 如 果 在 下 标 
位 置 ; 找 出 层 1，3 和 4 的 索引 ， 则 将 分 别 在 a 中 [1], a 中 [2] 和 a[j[3] 中 找到 系数 a1, as 和 ws。 因此 ， 
这 种 表示 是 相当 地 紧凑 的 。 

一 旦 分 析 了 这 些 下 标 ， 我 们 就 可 以 调用 过 程 parition， 在 图 3-1 中 以 简要 的 形式 描述 过 它 。 
注意 patition 必 须 返 回 一 个 划分 的 数组 ， 每 个 划分 是 引用 偶 中 下 标 位 置 的 不 相交 子 集 ， 这 里 下 
标 位 置 是 1 和 mm 之 间 的 整数 。 

最 后 ， 正 式 开 始 测 试 。 首 先 ， 访 问 所 有 的 下 标 ， 并 用 ZIV 和 SIV 测 试 对 线性 可 分 的 下 标 做 
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合 组 。 除 ZIV 测 试 外 ， 每 个 不 能 证 明 无 依赖 的 测试 产生 一 个 可 能 的 方向 向 量 集合 DV。 然 后 必 
须 由 图 3-16 中 给 出 的 merge_vector_sets 过 程 将 此 集合 与 依赖 察 集 的 集合 合并 。 


procedure merge_vector_sets(In, DVset, DV) 
/ In 是 在 方向 向 量 中 表示 的 索引 表 
1/ DVset 是 当前 的 方向 向 量 集 ， 它 将 被 扩充 
/DY 是 表 严 中 索引 的 距离 向 量 集 
/ 此 例 程 仅 在 表 斑 中 索引 的 所 有 当前 方向 向 量 的 列 为 “* ”时 被 调用 
/ 因此 我 们 能 简单 地 复制 所 有 当前 的 方向 向 量 到 DV 的 基数 中 ， 并 为 每 个 
// ”新 向 量 填 入 方向 


nV:= I DVI; nl:= | In|; nDVset:= I DVset i 
newDVset :=new DVarray[nDVset*nV); 


lastNewDV :=0 
for i:=1 to nV do begin 


for j := 1 to nDVset do begin 
thisDV : = DVset(j]HI48 A; 
for k:=1 to nI do thisDV[In{k]] : =DVUEJ[A]; 
lastNewDV : = lastNewDV + 1; 
newDVset[lastNewDV] : = thisDV; 


free DVser; 
DVset :=newDVset, 


end merge_vector_sets 





图 3-16 方向 向 量 和 距离 向 量 合 并 


方向 向 量 合 并 根据 每 一 种 测试 应 用 于 下 标的 单个 划分 上 这 样 的 事实 ， 合 并 过 程 是 比较 容 
易 的 。 回 顾 一 下 ， 每 个 划分 包含 惟一 的 循环 索引 集 。 即 没有 这 样 的 划分 ， 它 包含 的 循环 索引 
是 在 任何 其 他 划分 中 找到 的 。 所 以 ,我们 能 保证 当 我 们 实施 合并 时 ， 在 正 被 测试 的 划分 中 找 
到 的 索引 集 的 相应 位 置 上 ， 依 赖 的 所 有 方向 向 量 有 “*” 项 。 所 以 ,我们 基本 上 能 做 笛 卡 儿 积 ， 
产生 一 个 方向 向 量 集 ， 它 的 大 小 等 于 划分 的 向 量 数目 乘 以 迄今 已 有 的 这 样 依赖 向 量 的 数目 。 

我 们 用 一 个 例子 说 明 合并 过 程 ， 假 设 我 们 有 下 面 的 代码 : 

DO I = 1,N 
DO J = 2,N 
DO K = 1,N 
S ACI, J+1,J+K) = A(I+1,J,J+K) + C 
ENDDO 
ENDDO 
ENDDO 

对 语句 5 中 的 两 个 引用 进行 测试 ， 我 们 从 系统 设 定 的 方向 向 量 (*,*,*) 开 始 。 第 一 个 下 标 
是 可 分 的 ， 所 以 先 对 它 应 用 SIV 测 试 。 返 回 方向 “>” 和 距离 -1。 合 并 过 程 简单 地 将 此 方向 插 
入 对 应 1 (外 循环 索引 ) 的 位 置 上 ,产生 (>,*,*)。 接 下 去 测试 由 下 标 2 和 3 组 成 的 耦合 组 。 应 
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用 SIV 测 试 到 第 二 个 下 标 上 ,产生 对 应 J- 循 环 的 方向 “=”。 这 意味 着 J 的 值 在 产 点 和 汇 点 上 是 126 
相等 的 。 当 它 被 代入 第 三 个 位 置 时 ，y 的 值 可 以 从 方程 中 删 去 ， 我 们 同样 得 到 K- 循 环 的 方向 “LU27 
因此 由 J- 循 环 和 kk- 循环 组 成 的 划分 的 方向 向 量 是 (=,=)。 当 它 与 当前 的 方向 向 量 集 (>,*,*) 
合并 时 ， 得 到 的 结果 是 (>,=,=)。 由 此 我 们 看 到 $ 的 自 依 赖 是 一 个 反 依 赖 ， 方 向 向 量 为 (《,=,=)。 
往 意 ， 合 并 总 是 在 当前 方向 向 量 集中 具有 “*” 的 位 置 上 发 生 。 
距离 和 消除 条 件 虽然 我 们 已 经 讨论 了 方向 向 量 的 处 理 ， 但 是 还 没有 说 明 如 何 扩展 这 些 算 
法 来 处 理 距 离 和 共 他 诸如 交叉 闹 值 和 消除 条 件 这 样 的 注释 。 在 多 数 的 依赖 测试 程序 中 ， 这 些 
附加 的 量 是 对 方向 向 量 的 注释 。 在 前 面 的 例子 中 ， 惟 一 的 未 知 距离 的 方向 是 与 距离 -] 关 联 的 
“>”。 此 信息 可 以 作为 对 此 方向 的 注释 附加 上 , 它 含 有 一 个 布尔 变量 (指示 有 一 个 关联 的 距离 )， 
一 个 类 型 (指示 距离 的 种 类 ) 和 一 个 值 。 所 以 ， 实 际 上 方向 向 量 看 上 去 有 点 像 : 
(>[fixed: -1],=,=) 
可 以 对 符号 距离 和 消除 条 件 做 类 似 的 处 理 。 
注意 ， 依 赖 的 消除 条 件 是 所 有 具有 这 种 条 件 的 方向 向 量 的 消除 条 件 的 析 取 。 当 然 ，ZIV 测 
试 产生 的 消除 条 件 不 与 任何 特定 的 方向 有 关 。 可 以 将 它 作 为 一 个 整体 附加 到 方向 向 量 上 。 这 
种 表示 利用 了 这 样 的 事实 : 距离 和 消除 条 件 普遍 比方 向 少 ， 所 以 在 每 个 循环 索引 位 置 上 不 必 
为 这 样 的 注释 分 配 空间 。 
标量 依赖 最 后 一 个 实用 问题 是 与 标量 变量 关联 的 依赖 表示 。 为 了 理解 此 问题 ， 考 虑 下 面 


的 例子 : 
DOI=1N 
DO J = 1,N 
DO K =1,N 
S T= T + ACI,0,K) 


ENDDO 
ENDDO 
ENDDO 

因为 标量 变量 T 不 是 任何 变量 的 索引 ， 我 们 可 以 看 出 它 有 一 个 依赖 ， 是 由 三 个 循环 的 每 一 
个 循环 携带 的 。 事 实 上 ， 对 T 的 两 个 引用 引发 出 三 类 依赖 : 由 于 左边 出 现 的 T 引 起 输出 依赖 ， [2 
从 右边 的 出 现 到 左边 出 现 的 反 依 赖 ， 以 及 从 左边 出 现 到 右边 出 现 的 真 依赖 。 方 向 向 量 集 如 下 : 

(1) 输出 依赖 : (<,*,<),(<, *,>),(=, <, <),(=, <, >) 

(2) 反 依赖 : (<, *, <),(K, *, >),(=, <, <), (=, <, >) 

(3) 真 依赖 : (<, *, <),(<, *, >),(=, <, <),(=, <, >) 

换 句 话说， 对 每 一 种 依赖 有 8 个 不 同 的 方向 向 量 。 如 果 我 们 纪录 下 这 些 方向 向 量 的 每 一 种 
不 同 的 依赖 ， 正 如 我 们 因数 组 引用 而 做 的 依赖 ， 那 么 空间 需求 将 很 快 变 得 不 可 管理 。 事 实 上 ， 
这 在 PFC 的 一 个 早期 版 本 中 发 生 过 ， 其 中 一 个 相当 小 的 子 程序 ， 引 起 了 最 大 达 64 000TH, 
出 了 依赖 表 的 容量 。 

为 了 避免 发 生 此 类 问题 ， 用 一 种 概要 形式 表示 标量 依赖 更 好 一 些 ， 这 种 形式 指明 携带 依 
赖 的 循环 集合 ， 以 及 是 否 有 可 能 是 循环 无 关 的 依赖 。 对 于 前 面 的 例子 ， 我 们 应 当 纪 录 下 三 个 
循环 可 能 携带 依赖 ， 但 是 不 可 能 是 循环 无 关 的 依赖 。 这 能 表示 成 循环 层 的 区 域 加 上 一 个 布尔 
变量 。 


oO 
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3.7 小 结 

依赖 测试 是 这 样 一 个 过 程 : 判断 在 给 定 的 一 组 循环 中 ， 对 相同 变量 的 两 个 引用 是 否 可 能 
访问 相同 的 存储 单元 。 如 果 一 个 依赖 是 可 能 的 ， 那 么 测试 过 程 必须 标识 方向 向 量 集 ， 在 某 些 
情况 下 ， 还 要 标识 出 距离 ， 它 们 描述 给 定 的 引用 偶 之 间 所 有 可 能 的 依赖 。 

在 多 数 情况 下 ， 依 赖 测试 相当 于 确定 丢 番 图 方程 组 在 循环 媒 套 的 迁 代 界限 内 是 否 有 解 ， 
下 标的 引用 出 现在 此 循环 伐 套 中 。 在 多 数 情况 下 ， 由 于 仅仅 集中 于 下 标 能 描述 成 循环 归纳 变 
量 的 仿 射 组 合 上 ， 使 此 问题 得 到 了 简化 。 即 使 这 样 ， 由 于 在 线性 表达 式 中 存在 符号 系数 ， 问 
题 仍然 是 复杂 的 。 

在 这 一 章 我 们 介绍 了 一 个 依赖 测试 过 程 ， 它 使 用 基于 情况 的 分 析 ， 保 证 对 大 多 数 经 常 出 
现 的 情况 能 得 到 有 效 而 精确 的 处 理 。 此 过 程 由 下 列 步骤 组 成 : 

(1) 划分 下 标 (这 里 下 标 指 一 对 引用 中 匹配 的 下 标 位 置 偶 ) 成 可 分 的 和 最 小 耦合 组 。 如 
果 在 一 下 标 中 出 现 的 归纳 变量 ， 没 有 一 个 在 其 他 的 下 标 中 出 现 ， 则 称 此 下 标 是 可 分 的 。 一 个 
耦合 组 是 最 小 的 ， 如 果 它 不 能 划分 成 两 个 具有 不 同 的 索引 集合 的 非 空子 集合 。 一 旦 完成 了 划 
分 ， 那 么 每 个 可 分 的 下 标 和 每 个 耦合 组 有 完全 不 相交 的 索引 集 。 然 后 ， 能 分 离开 测试 每 个 划 
分 ， 并 得 到 合并 的 距离 向 量 或 方向 向 量 而 不 丢失 精度 。 

(2) 将 每 个 下 标 位 置 分 类 成 ZIV ( 含 0 个 归纳 变量 )，SIV ( 含 一 个 归纳 变量 ) 或 MIV (E 
多 个 归纳 变量 )。 . 

(3) 对 每 个 可 分 的 下 标 ， 根 据 下 标的 复杂 性 应 用 适宜 的 单 下 标 测 试 (ZIV, SIV, MIV). 
这 将 产生 无 依赖 或 在 该 下 标 中 出 现 的 索引 的 方向 向 量 。 如 果 证 明 为 无 依赖 ， 则 对 其 他 位 置 不 
需要 做 进一步 测试 。 

(4) 对 每 个 耦合 下 标 ， 应 用 诸如 Delta 测 试 这 样 的 多 下 标 测 试 ， 产 生 此 组 中 出 现 的 索引 的 
方向 向 量 集 。 

(5) 如 果 任 何 测 试 的 结果 是 无 依赖 ， 则 没有 依赖 存在 ， 无 需 做 进一步 的 测试 。 否 则 合并 
在 前 几 步 中 计算 的 所 有 方向 向 量 ， 使 成 为 两 个 引用 的 一 个 方向 向 量 集 。 

这 一 章 对 ZIV 和 SIV 测 试 做 了 详细 的 描述 ， 并 详细 地 讨论 了 GCD 测 试 和 Banerjee 不 等 式 一 一 
一 个 快速 而 又 精确 的 MIV 偶 测试 。 为 使 测试 真正 有 效 ， 任 何 测试 过 程 必 须 处 理 符号 系数 和 梯 
形 循环 。 还 介绍 了 神 试 的 扩展 ， 以 便 处 理 这 些 情况 。 
3.8 实例 研究 

PFC 和 Ardent Titan 编 译 器 都 是 按照 这 一 章 描述 的 依赖 测试 方法 实现 的 。 原 始 的 PFC 向 量 
化 程序 仅 对 含有 依赖 偶 的 一 个 循环 携带 的 下 标 做 测试 。 例 如 ， 如 果 一 依赖 偶 包 含 在 三 个 循环 
中 ， 它 会 对 下 面 的 方向 向 量 做 测试 : 








(1) (<,*,*) 由 最 外 层 循 环 携带 
(2) (=, <, *) 由 次 最 外 层 循环 携带 
(3) (=,=, < ) 一 一 由 最 内 层 循环 携带 


对 每 个 携带 者 循环 ， 还 构造 益 值 (距离) 信息， 并 测试 交换 最 内 层 与 次 最 内 层 循环 是 否 
合法 。 在 三 个 循环 的 嵌 套 中 ， 这 就 组 成 了 对 方向 向 量 (=, <, >) 的 测试 。 所 有 这 些 测 试 的 导 
出 使 用 三 角形 Banerjee 不 等 式 和 GCD 测 试 。 

稍 后 增强 的 PFC， 包 含 ZIV， 全 部 SIV 和 MIV 测 试 ， 以 及 如 本 章 中 所 描述 的 受 限制 的 Delta 
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测试 版 本 。 三 角形 Banerjee 不 等 式 限制 在 任何 循环 上 界 中 只 包含 最 多 一 个 外 层 循环 索引 [170]。 

这 个 PFC 的 第 二 版 本 计算 完整 的 方向 向 量 ， 只 要 可 能 ， 还 计算 距离 向 量 。 如 果 在 表达 式 中 
符号 量 始终 是 循环 不 变量 ， 则 将 符号 表达 式 记 为 一 个 距离 。 在 符号 依赖 测试 中 可 以 使 用 这 些 
距离 。 

PFC 还 记录 了 消除 条 件 ， 并 利用 它们 插入 运行 时 的 依赖 测试 。 另 外 ， 在 一 个 称 为 PTOOL 
[18] 的 交互 程序 设计 工具 中 ,用 这 些 条 件 来 消除 依赖 ,， PTOOL 使 用 了 PFC 作 为 依赖 测试 的 引擎 。 
ParaScope Editor[31，79，132] 在 合并 它 自 己 的 测试 系统 之 前 ， 也 使 用 了 PFC 做 测试 依赖 。 

PFC 的 一 个 重要 特色 是 支持 过 程 间 分 析 ， 使 之 有 可 能 用 第 11 章 中 描述 的 方法 做 过 程 间 的 依 
HAMIR. 

3.9 历史 评述 与 参考 文献 

最 早 的 依赖 测试 工作 集中 在 从 强 SIV 下 标 导 出 距离 向 量 [191，195，219]。Cohagan[77] 描 
述 了 一 种 测试 方法 ， 可 从 符号 上 分 析 一 般 的 SIV 下 标 。Banerjee 和 Wolfef33，283] 研 究 了 目前 
的 单 索 引 精 确 测试 形式 。Callahan 描 述 用 在 PFC 中 的 可 分 性 方法 [51]。 

对 于 MIV 下 标 ，GCD 测 试 可 用 来 检查 无 约束 的 整数 解 [32，168]。Banerjee 不 等 式 提 供 有 
用 的 通用 单 下 标 测 试 ， 求 受 约束 的 实数 解 [33]。 另 外 ， 还 对 它 进行 修改 用 来 提供 许多 不 同类 型 
的 依赖 信息 [21，34，49，168，170，283]。 研 究 表明 在 许多 常见 的 情况 下 ，Banerjee 不 等 式 
是 精确 的 [32，184，201]， 虽 然 结果 还 没有 被 扩展 到 方向 向 量 或 复杂 的 迭代 空间 。 

由 Kong 等 人 研究 的 工 测 试 集成 GCD 和 Banerjee 测 试 ， 通 常 能 证 明 整数 解 [1881]。Gross 和 
Steenkiste 提 出 一 个 有 效 的 区 间 分 析 方 法 ， 用 来 计算 数组 的 依赖 [126]。 不 过 他 们 的 方法 不 处 理 
耦合 下 标 ， 并 由 于 设 有 计算 距离 向 量 和 方向 向 量 ， 不 适合 于 多 数 循环 变换 。 

Lichnewsky 和 Thomasset 描 述 在 VATIL 向 量化 程序 中 使 用 的 符号 依赖 测试 [203]。Haghighat 
和 Polychronopoulos 提 出 的 流 分 析 框 架 有 助 于 符号 测试 [128]。 

执行 条 件 也 可 以 用 来 精炼 依赖 测试 。Wolfe 的 All-Equals 测 试 在 循环 内 的 控制 流 上 检查 无 
效 的 循环 无 关 依赖 [283]。Lu 和 Chen 的 子 域 测试 结合 来 自 循环 体内 条 件 的 有 关 索 引 的 信息 
[205]。Klappholz 和 Kong 已 对 Banerjee 不 等 式 做 了 扩展 ， 使 之 做 相同 的 事情 [183]。 

测试 多 维 数组 的 早期 方法 强调 同时 性 ， 包 括 对 每 一 维 求 交 方向 向 量 和 线性 化 [49，121]; 
在 许多 情况 中 已 证 明 它 们 是 不 精确 的 。 真 正 的 多 下 标 测试 提供 的 精确 度 ， 是 以 同时 考虑 所 有 
下 标的 性 能 损失 为 代价 。 这 些 测试 已 在 3.4.2 节 中 讨论 。 本 章 描 述 的 Delta 测 试 是 由 Goff， 
Kennedy 和 Tseng 建 立 的 [123]。 
习题 

3.1 在 下 面 的 每 个 例子 中 ,假设 你 正在 测试 语句 $5 到 自身 的 依赖 。 哪 些 下 标 位 置 是 可 分 
的 ? 哪些 是 耦合 的 ? 用 本 章 描述 的 依赖 测试 过 程 哪 一 种 依赖 币 试 将 会 应 用 到 每 个 位 置 上 ? 

a. DO K = 1, 100 

DO J = 1, 100 
DO 1 = 1, 100 
s . A(1+1,J+1,K+1) = A(I,J,1) +C 
ENDDO 


ENDDO 
ENDDO 
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b. DOK = 1, 100 
DO J = 1, 100 
DO I = 1, 100 
5 A(I+1,J+K+1,K+1) = A(I,J,K) +C 
ENDDO 
ENDDO 
ENDDO 


c. DOK= 1, 100 
DO J = 1, 100 
DO I = 1, 100 
5 A(I+1,J+K+1,I) = ACI,J,2) +C 
ENDD0 
ENDDO 
132 ENDDO 


3.2 在 下 面 的 例子 中 ,为 循环 中 所 有 可 能 的 依赖 计算 完整 的 方向 向 量 集 。 有 具体 涉及 每 种 情 
况 的 依赖 类 型 。 描 述 对 此 例 用 本 章 中 的 依赖 测试 程序 将 使 用 的 测试 。 


DO K = 1, 100 
DO J = 1, 100 
DO I= 1, 100 
Sı A(I+1,J+4,K+1) = B(I,J,K) +C 
S: B(I+J,5,K+1) = A(2,K,K) +D 
ENDDO 
ENDDO 
ENDDO 
3.3 对 下 面 的 例子 构造 有 效 的 消除 条 件 。 
a. DOI=1, 100 
S A(I+IX) = ACI) +C 
ENDDO 
b. DOK=1, 100 
DO J= 1, 100 
DO I= 1, 100 
S A(I+1,J+1,K+1) = A(I,JX,K) + C 
ENDDO 
ENDDO 
ENDDO 
c. DOK=1, 100 
00 J = 1, 100 
DO I = 1, 100 
S ACI+1,J+K+9X) = ACI,J) +C 
ENDD0 
ENDD0 
ENDDO 


3.4 3.3.2 节 考虑 梯形 迭代 空间 对 强 SIV 依 赖 测试 的 影响 。 说 明 将 3.3.3 节 的 梯形 Banerjee 不 
等 式 用 于 同样 的 例子 上 你 会 获得 什么 结果 。 结 果 相 同 呢 还 是 不 同 ? 为什么? 
3.5 3.3.2 节 也 考虑 选 代 的 梯形 区 域 中 的 弱 -0 SIV 测 试 。 其 结果 与 你 应 用 梯形 Banerjee 不 等 
式 得 到 的 结果 相同 吗 ? 





3.6 用 引 理 3.2 证 明 ， 在 区 域 <x< U7, 下 so 中 有 
-a Ui +a; Li - b+b O <ar by; 
La;tU -a Ltb U} -b O 
(这 是 引 理 3.3 证 明 中 的 情况 4。) 








初等 变换 


4.1 引言 

第 3 章 介 绍 的 多 数 依 赖 测试 要 求 下 标 表达 式 是 循环 归纳 变量 的 线性 函数 或 仿 射 函 数 ， 下 标 
表达 式 的 系数 是 已 知 常数 ， 并 且 最 多 只 有 一 个 符号 加 常数 。 如 果 想 要 为 这 些 测试 构造 出 一 个 
精确 的 依赖 图 ， 那 么 程序 中 的 多 数 下 标 必须 取 这 种 形式 。 

不 过 ， 编 写 程序 通常 并 未 考虑 依赖 测试 。 程 序 员 写 代码 倾向 于 利用 他 们 偏爱 的 Fortran 语 
言 或 它 的 编译 器 的 不 同 版 本 。 另 外 ,许多 特有 的 实践 已 经 被 用 来 攻击 编译 器 优化 策略 中 的 弱 
点 ， 结 果 是 得 到 的 代码 往往 可 击败 最 好 的 依赖 分 析 器 。 下 面 是 一 个 有 代表 性 的 例子 : 

INC = 2 

KI = 0 

DO I = 1，100 

DO J = 1, 100 

KI = KI + INC 

U(KI) = U(KI) + W(J) 
ENDDO 
S(1) = U(KI) 

ENDDO 

此 循环 余 套 中 仅 有 两 个 下 标 一 一 W(J) 和 S(I) 一 一 是 人 循环 归纳 变量 的 仿 射 函 数 。 特 别 地 ， 表 
达 式 U(KI) (在 每 一 种 依赖 测试 中 都 会 涉及 到 这 种 表达 式 ) 不 能 用 所 写 的 这 种 形式 测试 ， 因 为 
KI 在 循环 内 变化 。 如 果 要 想 将 第 3 章 中 的 那些 测试 成 功 地 应 用 到 此 例 上 ， 必 须 变 换 此 代码 。 

为 了 解决 这 类 问题 ， 在 依赖 测试 之 前 可 以 先 做 若干 变换 ， 使 测试 的 目标 更 精确 。 这 些 变 
换 使 更 多 的 下 标 能 接受 第 3 章 中 描述 的 精确 测试 。 

此 过 程 中 ， 一 个 重要 的 变换 是 妇 纳 变量 替换 。 在 上 例 中 ， 变 量 INC 在 内 循环 是 不 变 的 。 所 
以 在 J- 循 环 中 对 KI 的 赋值 是 在 每 次 循环 迭代 中 将 它 的 值 增加 一 个 常量 。 此 增 量 使 KI 成 为 一 个 
辅助 归纳 变量 ; 本 质 上 它 是 另 一 个 循环 变量 ， 它 跟踪 正规 的 循环 索引 (J)， 但 是 具有 不 同 的 增 
量 或 起 点 。 归 纳 变 量 趟 换 将 每 个 辅助 归纳 变量 的 引用 变换 成 一 个 循环 索引 的 直接 函数 。 对 内 
循环 应 用 这 样 的 变换 产生 

INC = 2 
KI = 0 
DO I= 1, 100 
DO J = 1, 100 
! 已 被 删 去 : KI = KI + INC 
U(KI+J#INC) = U(KI+0*INC) + W(J) 
ENDDO f . 
Sı KI = KI + 100*INC 
S(I) = U(KI) 
ENDDO 





~] 


2 


在 循环 内 ，KI 的 使 用 已 变 成 循环 归纳 变量 的 一 个 函数 ; 删 去 了 增 量 〈 变 为 一 个 CONTINUE 
语句 ) ; 并 且 插 入 了 51， 用 来 在 循环 外 对 KI 置 正 确 的 值 。 注 意 ， 在 循环 中 仍 有 一 个 对 KI 的 引 
用 ， 但 是 现在 它 含 有 该 变量 的 循环 不 变 的 初始 值 。 

由 于 在 外 循环 插入 一 -个 KI 的 增 量 语句 ， 此 变换 已 使 KI 变 成 一 个 与 该 循环 有 关 的 辅助 归纳 
变量 。 需 要 第 二 次 应 用 归纳 变量 替换 ， 完 全 消除 作为 辅助 归纳 变量 的 KI: 

INC = 2 

KI = 0 

DO I = 1, 100 

DO J = 1, 100 
UCKI+(1-1)*100#INC+U*INC) = & 
UCKI+( 1-1) *100#INC+I*INC) + W(J) 
ENDDO 
! 已 被 删 去 : KI = KI + 100*INC 
S(I) = U(KI+I*(100*INC)) 
ENDDO 
KI = KI+100*100*INC 


现在 所 有 下 标 都 是 循环 归纳 变量 的 仿 射 函数 ， 虽 然 系数 都 是 符号 的 。 
化 简 此 程序 的 下 一 个 步骤 是 识别 在 循环 中 使 用 的 INC 和 RI 的 值 实际 上 恰好 是 党 数值。 循环 
外 的 值 的 常数 传播 将 消去 这 些 符号 量 ， 化 简 后 得 到 
INC = 2 
! DRMA: KI = 0 
DO I = 1，100 
DO J = 1, 100 
U(1#200+0#2-200) = U(I*200+J*2-200) + W(J) 
ENDDO 
S(I) = U(1#200) 
ENDDO 
KI = 20,000 
虽然 现在 此 例 对 依赖 测试 来 说 是 一 种 可 处 理 的 形式 ， 但 是 还 有 一 些 无 用 的 元 余 一 一 某 些 常 
数值 赋值 可 能 绝 不 会 用 到 。 特 别 地 ， 对 KI 和 INC 的 赋值 仅 当 在 程序 中 稍 后 使 用 它们 时 才 是 需要 
的 。 不 让 这 些 赋值 浪费 代码 空间 和 执行 时 间 ， 我 们 可 以 通过 死 代码 消除 发 现 并 删 去 它们 。 假 
设 在 此 循环 之 后 不 再 使 用 KI 和 INC， 将 产生 
DO I = 1, 100 
DO J = 1, 100 
U(I*200+J*2-200) = U(I*200+J*2-200) + W(J) 
ENDDO 
S(I) = U(T#200) 
ENDDO 
事实 上 ， 许 多 程序 含有 类 似 于 上 例 的 代码 。 因 此 变换 代码 的 能 力 对 依赖 测试 的 成 功 是 重 
要 的 。 这 一 章 介绍 对 程序 实施 初等 变换 的 方法 ， 变 换 使 程序 适合 依赖 测试 的 需要 。 因 为 在 有 
控制 流 时 ， 这 些 变换 变 得 更 困难 ， 我 们 将 延缓 对 控制 的 讨论 到 第 7 章 。 


4.2 信息 需求 
第 3 章 讨论 依赖 测试 方法 时 ， 假 设 了 循环 的 一 些 性 质 。 例 如 ， 如 前 所 述 的 多 数 依赖 测试 假 





设 循环 的 步 长 为 1。 为 了 实现 这 些 测 试 ， 必 须 收集 有 关 循 环 符合 这 些 需 求 的 信息 ， 并 做 一 些 沿 
未 做 的 事情 。 另 外 ， 实 现 前 一 节 描 述 的 变换 需要 有 关 程 序 中 数据 结构 和 使 用 的 知识 。 这 些 必 


需 的 信息 包含 下 面 所 列 的 各 项 : 
(1) 循环 跨 距 :虽然 依赖 测试 能 重新 计算 非 单位 跨 距 ， 但是， 如 果 跨 距 是 1 的 话 ， 那 么 依 
赖 测试 最 容易 实现 。 


(2) MARES: 如 果 编 译 器 想 要 寻找 机 会 做 辅助 归纳 变量 替换 ， 则 编译 器 必须 要 有 能 
力 识别 循环 不 变 的 变量 和 表达 式 。 

(3) 常数 值 赋值 : 对 常数 传播 来 说 ， 识 别 常数 值 赋值 是 一 个 重要 的 开端 。 

(4) 变量 的 使 用 : 传播 一 个 常数 值 赋值 需要 知道 哪些 语句 使 用 由 赋值 定义 的 变量 。 类 似 
地 ， 死 代码 识别 涉及 到 识别 那些 输出 绝 不 会 被 使 用 的 语句 。 

收集 这 些 信息 的 过 程 涉及 众所周知 的 标量 优化 技术 。 特 别 地 ， 最 后 这 三 项 通常 归 标 量 数据 
流 分 析 计算 。 本 章 余下 的 部 分 对 程序 变换 和 数据 流 分 析 策 略 需要 计算 的 必要 信息 提供 一 个 简介 。 


4.3 循环 正规 化 

为 使 依赖 测试 过 程 尽 可 能 简单 ， 许 多 先进 的 编译 器 对 所 有 的 循环 正规 化 ， 使 它们 从 下 界 
为 1 运行 到 某 个 上 界 ， 跨 距 为 1-- 一 基本 上 使 所 有 的 循环 “ 数 点 ”执行 欠 代 ， 用 新 的 归纳 变量 
的 仿 射 函 数 代替 对 原 循 环 归 纳 变量 的 引用 。 这 种 变换 称 为 循环 正规 化 。 

作为 原始 定义 ， 对 此 变换 特别 地 使 用 了 “循环 正规 化 ”这 个 术语 。 然 而 ， 依 赖 测试 需要 很 
多 有 关 循环 的 信息 一 例如 ， 哪 些 循环 围绕 哪些 语句 ， 哪 些 归纳 变量 控制 哪些 循环 ， 以 及 什么 
样 的 循环 界 控制 每 个 循环 。 因 为 必须 在 真正 的 测试 之 前 的 某 个 时 刻 收 集 这 些 信 息 ， 并 因 循 环 正 
规 化 无 论 如 何必 须要 检查 所 有 的 循环 ， 所 以 许多 编译 器 将 实现 循环 正规 化 归 为 一 般 的 正规 化 和 
信息 收集 遍 。 结 果 ， 读 术语 往往 不 仅 用 于 特定 的 变换 ， 还 用 于 收集 有 关 循 环 信息 的 总 的 遍 中 。 
对 变换 或 总 的 遍 我 们 都 将 互 换 地 使 用 “循环 正规 化 ”; 上 下 文 应 当 能 洪 清 它 所 指 的 意思 。 

图 4-1 介 绍 一 个 循环 正规 化 的 简单 算法 ， 它 能 应 用 到 任何 带 有 整 型 控制 参数 的 Fortran 90 
D0 循 环 上 。 它 用 1 替换 被 正规 化 的 原 循环 索引 变量 ， 并 用 等 价 表达 式 代 入 新 的 索引 变量 中 替换 
对 原始 索引 的 引用 。 注 意 ， 为 简化 起 见 ， 我 们 将 小 写 变 量 i 看 成 是 编译 器 引入 的 变量 ， 它 不 同 
于 大 写 的 1， 即 使 多 数 Fortran 90 的 实现 将 它们 看 成 是 相同 的 。 


procedure normalizeLoop(Lo) 
1/ Lo 是 被 正规 化 的 循环 
令 是 惟一 的 由 编译 器 生成 的 循环 索引 变量 ; 
Si: 用 校准 的 循环 头 
DOi=1,(U-L+S)/S 
` PRLR A 
DO I=L, U, S; 


So: 用 i* S- S+ LARHR OES NY ii — A3; 


53: 在 循环 结束 后 立即 插入 一 个 节 后 完成 的 赋值 语 名 
I=i*S-S+L; 


end normalizeLoop 








图 4-1 循环 正规 化 算法 
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正确 性 ”为 了 说 明 aormalizeLoop 具 有 要 求 的 效果 ， 我 们 只 需 说 明 在 步骤 Si 中 计算 的 循环 
界 ， 在 步 又 S$: 中 计算 的 林 换 的 索引 值 ， 以 及 在 步骤 $: 中 计算 的 最 后 定 值 是 正确 的 。 即 替换 后 的 
循环 具有 相同 的 迭代 数目 ， 并 且 替 换 的 表达 式 与 原 循 环 归纳 变量 是 等 价 的 。 

在 Fortran 90 循 环 中 ,恰好 在 循环 外 对 循环 索引 置 循环 下 界 并 且 做 测试 以 保证 它 小 于 上 界 。 
在 后 继 的 迭代 中 当前 的 索引 值 加 上 增 量 ， 如 果 结 果 小 于 或 等 于 上 界 ， 则 执行 循环 体 。 因 此 对 
新 的 归纳 变量 i 满足 

L+(i-1)*S<U 
的 每 一 个 值 ， 执 行 循环 体 。 换 言 之 ， 对 i 满足 
i*S CU-L+S 

的 每 一 个 值 ， 执 行 循环 体 。 

因此 在 循环 迭代 区 域内 i 的 最 大 值 必 须 是 小 于 或 等 于 

(U-L+S)VS 

的 最 大 整数 ， 这 里 将 除 解释 成 产生 一 个 实数 。 然 而 ， 在 Fortran 中 整数 除 产生 的 最 大 整数 小 于 
等 于 真正 的 商 。 所 以 在 步骤 1 中 计算 的 循环 计数 是 正确 的 。 

接 下 来 我 们 必须 说 明 原 循环 归纳 变量 I 替 换 后 的 值 有 如 I 在 每 次 克 代 中 相同 的 值 。 显 然 在 
第 一 次 选 代 中 〈 当 i=l 时 ) 值 是 正确 的 ， 因 为 该 值 是 L。 如 果 在 一 次 迭代 中 值 是 正确 的 ， 那 么 
在 后 继 迭 代 中 的 值 必定 是 正确 的 ， 因 为 在 后 继 选 代 中 替换 的 值 大 于 正确 运 代 中 替换 的 值 ， 大 
出 的 值 为 循环 增 量 S。 因 此 步骤 2 中 的 替换 是 正确 的 。 

在 Fortran 循 环 出 口 处 , 循环 归纳 变量 取 值 为 该 变量 在 最 后 一 次 循环 迭代 的 值 加 步 长 $ 的 值 。 
根据 上 述 推理 ， 它 必定 是 

i*S—S+L 

其 中 ，i 是 生成 的 归纳 变量 的 出 口 值 。 倘 若 所 有 下 标 值 与 正规 化 循环 中 的 值 相同 ， 那 么 正规 化 
总 是 安全 的 ， 因 为 它 不 改变 循环 中 任何 语句 的 顺序 。 因 此 所 有 依赖 关系 得 到 保持 。 而 且 ， 原 
归纳 变量 的 值 在 循环 之 后 被 正确 地 重 构 。 所 以 变换 维持 原 程 序 的 含意 。 

循环 正规 化 提供 若干 优点 。 除 了 简化 依赖 测试 外 ， 它 创建 等 价 于 该 循环 迭代 计数 的 循环 
索引 。 这 使 得 像 归 纳 变 量 赫 换 这 样 的 变换 更 容易 实施 。 

然而 ， 循 环 正规 化 也 有 某 些 重大 的 缺点 。 最 突出 的 缺点 是 有 牌 曲 依赖 性 质 的 可 能 性 。 下 
面 的 循环 嵌 套 说 明 这 种 缺点 : 

DOI=1, M 
DOJ=I, N 
Sı A(J,I) = A(J,I-1) + 5 


ENDDO 
ENDDO 


51 到 自身 的 真 依赖 有 方向 向 量 (<,=)。 对 内 循环 正规 化 产生 下 面 的 代码 : 


DO I=1,M 
DO J = 1, N-I+1 
S; A(J+I-1,I) = A(J+I-1,I-1) + 5 
ENDDO 
ENDDO 
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因为 这 是 一 个 安全 的 重 排序 变换 ， 所 以 依赖 必定 仍然 存在 。 然 而 ， 方 向 向 量 已 从 (《,=) 变 成 
(<,>)。 此 变换 不 是 完全 无 害 的 。 例 如 ， 考 虑 交换 I- 循 环 和 J- 循 环 (5.2 节 对 循环 交换 有 充分 
的 讨论 )。 循 环 交换 对 方向 向 量 的 影响 是 互 换 对 应 循环 交换 后 的 项 。 其 结果 是 ， 将 循环 交换 应 
用 到 原 方向 向 量 (<,=) 上 ， 产 生 一 个 新 的 方向 向 量 (=,<)， 它 维持 依赖 ， 并 且 显 然 是 安全 的 。 
应 用 循环 交换 到 方向 向 量 (<,>) 上 ， 产 生 一 个 新 的 方向 向 量 (>,《)， 它 逆转 依赖 ， 显 然 是 不 安 
人 的。 因此， 正规 化 已 使 交换 无 效 ， 虽 然 我 们 将 会 看 到 能 通过 其 他 的 变换 克服 这 个 问题 。 

当 原 循环 中 步 长 是 符号 时 ， 正 规 化 也 会 带 来 问题 。 在 这 种 情况 下 ， 正 规 化 为 原 归纳 变量 
引入 的 表达 式 中 产生 一 个 符号 系数 ， 使 得 在 任何 出 现 这 些 表达 式 的 下 标 上 测试 依赖 变 得 很 困 
难 。 在 这 样 的 情况 下 ， 实 际 上 应 用 一 个 简单 的 正规 化 版 本 更 好 些 ， 它 取 步 长 正好 是 1。 这 会 丢 
去 精度 ， 但 使 测试 下 标 成 为 可 能 。 事 实 上， 符号 下 标 在 运行 时 的 值 往往 等 于 1， 如 在 使 用 
LINPACK 库 的 应 用 程序 中 那样 ， 其 中 用 户 选择 的 跨 跑 的 大 多 数 几乎 是 不 必要 的 。 

尽管 存在 这 些 不 足 ， 正 规 化 是 一 个 有 用 的 变换 ， 并 且 已 应 用 到 几乎 所 有 的 向 量化 编译 器 
中 。 虽 然 不 是 必需 的 ， 但 是 为 简单 起 见 本 书 中 的 例子 假设 已 实行 了 正规 化 。 然 而 要 注意 ， 第 3 
章 中 依赖 测试 的 所 有 工作 都 是 对 任意 下 界 的 。 


4.4 数据 流 分 析 

数据 流 分 析 的 目的 在 于 理解 程序 中 数据 元 素 是 如 何 建 立 和 使 用 的 ， 为 的 是 支持 维持 程序 含 
意 的 优化 变换 。 关 于 标量 数据 流 分 析 有 大 量 的 文献 ( 见 Kennedy[169]，Muchnick[218])， 我 们 
不 打算 在 此 充分 地 表述 。 代 之 ,我们 对 构造 辅助 数据 结构 (定义 -使 用 链 和 静态 单 赋值 形式 ) 
的 方法 做 一 简单 的 介绍 ， 它 们 对 本 章 以 及 本 书后 面 讨 论 的 依赖 分 析 和 变换 的 支持 都 是 有 用 的 。 


4.4.1 定义 -使 用 链 
所 有 描述 的 初等 变换 ， 处 处 需要 能 够 容易 地 得 到 从 一 个 变量 的 定义 到 达 可 以 消费 该 定义 
值 的 所 有 单元 。 定 义 - 使 用 链 是 一 个 精确 定义 的 数据 结构 ， 用 它 容 易 实 现 这 样 的 操作 : 


定义 4.1 定义 -使 用 图 是 一 个 图 ， 它 包含 这 样 的 边 : 程序 中 从 每 个 定义 点 到 运 
行 时 该 变量 的 每 一 个 可 能 的 使 用 有 一 条 边 。 


我 们 使 用 术语 “定义 -使 用 图 ”代替 更 传统 的 “定义 -使 用 链 ” 是 因为 “图 ”更 正确 地 刻 
画 它 所 包含 的 信息 的 性 质 。 定 义 - 使 用 图 本 质 上 是 程序 中 真 依赖 的 标量 版 本 。 

在 代码 的 单个 直线 块 中 构造 定义 -使 用 边 是 非常 简单 的 。 你 在 基本 块 中 按 顺 序 经 过 每 个 
语句 ， 注 视 由 每 个 语句 定义 的 变量 (也 称 为 它 的 定义 )， 以 及 被 每 个 语句 使 用 的 变量 RAE 
的 使 用 )。 对 每 个 使 用 加 一 条 边 到 定义 ~ 使 用 图 中 ， 此 边 从 基本 块 中 变量 最 后 妓 种 的 定义 指向 
该 使 用 一 一 换言之 ， 从 那个 定义 到 达 这 个 使 用 。 每 当 遇 到 一 个 变量 的 新 定义 ， 新 定义 消除 已 
有 的 定义 ， 使 得 后 面 的 使 用 只 连接 到 新 定义 而 不 是 老 的 定义 上 。 当 到 达 块 的 结尾 处 时 ， 完 成 
局 部 图 。 

除 局 部 图 外 ， 基 本 块 计算 还 产生 若干 有 用 的 集合 ， 它 们 刻画 基本 块 的 行为 。 这 些 集 合 
如 下 : 

日 ”这 种 块 也 称 为 基本 块 。-- 个 基本 块 是 语句 的 最 大 组 ， 执 行 组 中 一 个 语句 ， 当 上 且 仅 当 每 个 语句 被 执行 。 换 句 


话说 ， 除 了 恰好 在 它 的 开始 处 或 它 的 结尾 处 ， 没 有 控制 流 进 入 或 退出 基本 块 ， 更 多 有 关 的 知识 见 
Kennedy[169]。 
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uses(b): 在 基本 块 中 使 用 的 所 有 变量 集合 ， 在 此 基本 块 内 这 些 变量 没有 预先 定义 。 换 句 
话说 ， 在 此 块 内 它们 是 不 “满足 的 ”使 用 ， 所 以 对 从 前 面 的 基本 块 到 达 该 基本 块 的 任何 定义 
来 说 它们 是 暴露 的 。 

defsout(b): 基本 块 bp 内 所 有 定义 的 集合 ， 这 些 定义 在 块 内 末 被 消除 。 换 句 话 说 ， 它 们 是 能 
到 达 b 之 外 的 其 他 基本 块 的 所 有 的 定义 。 

killed(b): 被 基本 块 5 内 其 他 定义 消除 的 定义 变量 的 所 有 定义 的 集合 。 从 其 他 基本 块 来 的 
任何 定义 ， 如 果 它 们 是 在 killed(b) 中 ， 将 禁止 它们 试图 “通达 ”2。 

这 些 集合 为 构造 整个 程序 (而 不 是 个 别 基本 块 ) 的 定义 -使 用 图 提供 基本 工具 。 给 定 这 些 
局 部 集合 ， 全 局 边 计 算 需 要 一 个 遗漏 的 集合 reaches(b) 一 一 从 所 有 基本 块 (包括 bp) 有 可 能 到 达 
b 的 所 有 的 定义 集合 。 对 于 任何 设 定 的 块 b»， 可 以 这 样 获得 所 有 的 全 局 定义 -使 用 边 : 对 于 
reaches(b) 中 每 个 元 素 达 到 uses(b) 的 所 有 相应 的 元 素 ， 就 加 上 一 条 边 。 其 结果 是 ， 如 果 我 们 
能 找到 一 种 对 所 有 的 块 计算 reaches 的 方法 ， 那 么 就 能 建立 定义 -使 用 图 。 

为 了 理解 如 何 全 局 地 计算 reaches， 首 先 看 一 下 非常 受 限制 的 图 上 的 问题 是 有 好 处 的 : 一 
个 基本 块 b; 和 它 的 某 些 前 驱 ， 他 们 之 中 的 每 块 能 通过 控制 流 的 某 种 形式 到 达 b。 在 这 个 简单 的 
图 中 ， 沿 着 任何 一 个 前 驱 p，reaches(b) 是 到 达 p 的 所 有 定义 的 集合 (reaches(p))， 并 且 在 p 内 
不 是 被 消除 的 〔 非 kiled(p))， 加 上 那些 p 中 到 达 p 的 出 口 的 定义 (defsout(p))。 更 形式 化 地 表 
示 ，reaches(b) 能 用 下 面 的 方程 定义 : 

reaches(b)= (defout( p)U (reaches(p) MN -kKilled(p))) (4-1) 


在 上 面 描 述 的 受 限制 图 上 求解 此 方程 显然 是 简单 的 ， 但 是 在 一 般 的 控制 流 图 上 求解 就 没 
有 那么 简单 了 。 复 杂 性 是 由 于 对 每 个 块 5 计 算 reaches 可 能 立即 改变 所 有 其 他 的 reaches (包括 
自身 )， 因 为 reaches(b) 是 其 他 reaches 方 程 的 输入 。 获 得 正确 解 需 要 同时 解 所 有 的 单个 方程 。 

所 幸 的 是 ， 此 问题 的 基本 数学 方法 保证 在 程序 中 每 个 结 点 卡 以 兴 代 方式 应 用 方程 (4-1)， 
最 终 将 会 以 一 个 稳定 的 解 终止 ， 此 解 是 同时 求 所 有 方程 获得 的 一 个 精确 解 。 对 它 的 证 明 超出 
本 书 的 范围 8 。 然 而 图 4-2 介 绍 的 结果 产生 概念 上 解数 据 流 方 程 组 的 简单 迭代 方法 。 虽 然 此 方 
法 的 实现 是 最 简明 的 ， 但 是 它 的 渐 近 最 坏 情 况 界限 是 最 复杂 的 。 算 法 以 自然 的 初始 近似 开始 
求解 一 作为 方程 (4-1) 输入 的 所 有 reaches 集 皆 为 null。 然 后 此 方法 在 所 有 顶点 上 反复 地 迭代 ， 
直到 它 到 达 一 个 不 动 点 〈 每 遍 通过 各 基本 块 不 再 产生 改变 的 一 个 点 )。 得 到 的 解 为 全 局 解 。 

在 许多 情况 下 ， 如 果 在 控制 流 图 中 选择 正确 顺序 访问 顶点 ， 则 收敛 会 得 到 加 速 。 通 常 最 
常用 的 顺序 是 深度 优先 顺序 一 一 假定 从 程序 人口 结 点 开始 ， 这 种 序 以 深度 优先 搜索 访问 各 个 

过 程 iterate 不 仅 是 (甚至 在 最 坏 的 情况 是 最 快 的 ) 构造 全 局 reaches 集 的 方法 ， 而 且 由 此 
能 得 到 定义 -使 用 链 。 一 般 来 说 它 需 O(N + E/N) 个 集合 操作 ， 其 中 N 是 图 G 中 的 顶点 数 ，E 是 
边 数 [169，164]。 然 而 ， 它 是 最 简单 的 实现 方法 ， 并 且 实 际 上 收敛 得 非常 快 。 对 解数 据 流 问 
题 其 他 方法 有 兴趣 的 读者 ， 可 以 参阅 Kennedy 的 综述 [169] 或 Muchnick 的 教科 书 [218]。 

一 日 构造 了 定义 -使 用 图 ， 归 纳 变 量 替 换 、 常 数 传播 和 死 代 码 消 除 等 问题 就 能 着 手 求解 。 


© 更 多 的 细节 见 Kennedy[169]。 
四 “准确 地 说 ， 算 法 实际 需要 OU(NW+ E)D(G))， 其 中 D(G) 是 一 个 图 的 “循环 连通 性 ”"， 它 与 程序 中 循环 媒人 套 深 


度 有 关 。 对 多 数 程序 来 说 ，D(G) 比 N 小 得 多 。 
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在 一 个 编译 器 中 ， 通 常 按 此 顺序 解决 这 些 问题 。 然 而 依据 理解 的 难度 ， 归 纳 变 量 赫 换 最 难 ， 
而 死 代 码 消 除 最 简单 。 余 下 的 几 节 按 相 反 的 顺序 讨论 这 些 问 题 。 


procedure iterate(G) 
/NG=(V,E) 是 输入 控制 流 图 ， 其 中 
WN 是 基本 块 集合 
W/E 是 控制 边 集合 
1/ defsout(b) 基 在 b 中 到 达 b 的 出 口 的 定义 集 
I killed(b) 是 由 于 一 个 中 间 赋 值 而 不 能 到 达 b 的 末尾 的 定义 集 
H reaches(b) 是 到 达 块 2 的 定义 集 


for each b £ G do reaches(b) = Ø 


/ 对 不 动 点 选 代 

changed : = true; 

while changed do begin 
changed : =false; 
for each b e N do begin 


newreaches : = reaches(b); 


for each p € predecessors(b) do 
newreaches :=newreaches U (defsout(p) U (reaches(p) N ~killed(p))); 
if newreaches + reaches(b) then begin 


reaches(b) : =newreaches; 


changed : = true; 


end iterate 





图 4-2 到 达 定 义 的 和 迭代 方法 


4.4.2 死 代码 消除 

死 代码 是 这 样 的 代码 ， 它 的 结果 绝 不 会 在 任何 有 用 的 语句 中 使 用 。 先 以 一 种 近似 的 说 法 ， 
可 将 “有 用 的 语句 ”简单 地 说 成 是 输出 语句 ， 因 为 这 种 语句 仅 是 执行 从 外 部 直接 看 到 结果 的 
操作 语句 。 当 然 ， 任 何 这 样 一 种 语句 也 是 有 用 的 ， 它 们 计算 为 输出 语句 使 用 的 值 如 同 计算 为 
有 用 语句 使 用 的 值 的 语句 一 样 。 这 种 粗 烽 的 定义 构成 死 代码 消除 算 靶 的 基础 ; 寻找 所 有 的 有 
用 语句 并 删除 所 有 的 其 他 语句 。 图 4-3 中 介绍 的 算法 以 全 部 绝对 有 用 语句 〈 即 输出 语句 ， 控 制 
流 语句 和 输入 语句 9 ) 的 workiist 集 合 开始 工作 。 然 后 ， 算 法 反复 加 入 语句 ， 这 对 计算 workiist 
当前 成 员 是 必需 和 的， 直至 不 再 需要 加 入 语句 。 到 那 时 ，worklist 包 含 程序 中 所 有 有 用 语句 ， 并 
可 以 将 所 有 其 他 的 语句 删除 。 

此 算法 欧 能 力 经 党 在 用 户 温 不 经 心 编写 的 基准 测试 程序 上 显示 出 来 ， 在 一 基准 测试 程序 
中 ， 程 序 员 往 往 关 心计 算 需 要 的 时 间 ， 而 不 是 计算 的 结果 。 过 去 有 些 基准 而 试 程 序 的 设计 者 
记 住 了 打印 执行 时 间 ， 但 忘记 了 打印 任何 结果 。 当 编译 器 实施 死 代码 消除 处 理 时 ， 整 个 计算 
变 成 了 死 代码 ， 得 到 极 快 的 执行 时 间 一 一 生成 的 代码 通常 将 读 时 钟 一 次 ， 再 读 一 次 ， 取 其 差 


O ”如 果 任何 输入 语句 未 被 执行 的 话 ， 即 使 它 的 结果 没有 用 处 ， 那 么 其 他 的 输入 语句 很 容易 接受 到 错误 的 值 。 
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并 将 它 打 印 出 来 。 


procedure eliminateDeadCode(P), 


1/ P 是 在 其 中 做 死 代码 消除 的 过 程 
1 假设 P 中 的 所 有 语句 存在 定义 -使 用 链 


A-worklist := {绝对 有 用 的 语句 }; 


while worklist + Ø do begin 

二 worklist 的 任意 一 个 元 素 ; 

标记 x 为 有 用 ; 

worklist : = worklist— {x}; 

for all (y, x) E defuse do 

证 y 未 被 标记 为 有 用 的 then worklist : = worklist U {y}; 

end 

消除 未 被 标记 为 有 用 的 每 个 语句 ; 


end eliminate DeadCode 





图 4-3 死 代 码 消除 


应 当 指 出 ， 像 图 4-3 中 那样 的 死 代码 消除 算法 ， 对 处 理 确 定 控制 流 的 表达 式 往往 会 遇 到 麻 
烦 。 即 使 这 些 表 达 式 不 产生 在 其 他 语句 中 使 用 的 值 ， 但 它们 控制 着 某 些 语句 的 执行 ， 依 据 确 
定 控制 流 的 测试 结果 能 绕 过 这 些 语 句 的 执行 。 简 单 的 死 代码 消除 系统 将 每 个 条 件 语 名 标记 为 
绝对 地 有 用 ， 然 后 如 果 它 们 控制 的 所 有 语句 被 删除 的 话 ， 则 删除 条 件 语 句 。 一 个 更 加 复杂 的 
方法 是 扩展 定义 -使 用 链 ， 使 之 带 有 第 7 章 中 描述 的 控制 依赖 边 。 如 果 这 样 做 ， 图 4-3 中 的 算法 
将 产生 精确 的 结果 。 下 一 节 介 绍 一 种 更 加 复杂 的 基于 定义 -使 用 的 算法 : 常数 传播 。 


4.4.3 常数 传播 

常数 传播 试图 用 常数 值 替 换 所 有 那些 能 证 明 在 运行 时 具有 常数 值 的 变量 。 分 析 此 问题 的 一 
种 方法 是 利用 图 4-4 中 描绘 的 常数 值 格 架 。 此 格 架 表 示 收 集 到 的 有 关 变 量 的 信息 。 在 顶层 (“未 
知 ”) 表示 有 关 一 个 特定 变量 没有 信息 可 以 利用 。 中 间 层 表示 变量 有 一 个 已 知 的 常数 值 一 一 常 
数 传播 希望 的 状况 。 注 意 ， 这 一 层 是 无 限 宽 的 ， 因 为 能 出 现任 何 整 常数 (假定 我 们 正在 传播 
整数 ;我 们 同样 能 在 这 层 放 置 浮 点 数 )。 底 层 表示 已 知 一 个 变量 取 多 个 值 ， 或 者 在 编译 时 不 知 
道 它 的 常数 值 。 虽 然 此 格 架 有 无 限 的 宽度 ， 但 它 有 有 限 的 深度 ， 因 为 最 长 的 向 下 链 长 度 为 2。 


I 
RN 一 一 


非常 数 
图 4-4 常数 传播 格 架 


常数 传播 算法 的 基本 想法 是 从 格 架 顶层 元 素 接近 的 每 个 变量 开始 。 每 当 发 现 一 个 语句 有 
常数 输出 时 ， 则 它 的 输出 变量 值 被 降低 为 常数 值 。 然 后 用 定义 -使 用 边 安放 所 有 使 用 该 输出 值 
的 指令 。 在 每 一 使 用 处 ， 用 格 架 中 老 值 和 新 值 匹配 来 调整 输入 变量 的 近似 值 。 图 4-5 给 出 了 完 
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整 的 算法 。 


procedure propagateConst(P) 
1 P 是 在 其 中 做 常数 传播 的 过 程 
1/ valout(w, s) 是 输入 w 到 s 的 最 近似 值 
1/ valin(v, s) 是 从 5s 输出 到 v 的 最 佳 值 
/HA (输入 到 s) 是 它 的 输入 格 值 上 语句 s 的 符号 解释 的 结果 。 此 输出 是 此 语句 的 输 
1/ 出 的 格 值 。 


for au 程序 中 的 语句 do begin 
for each s 的 输出 v do valout(v, s) : = unknown; 
for each ;的 输入 w do 
证 w 是 一 个 变量 then valin(w, s) : = unknown; 
else valin(w, s) :二 w 的 常数 值 ; 
end; 


worklist : =={ 所 有 常数 形式 的 语句 ， 例 如 ，x= 5}; 
while worklist + Ø do begin 


从 worklist 中 选取 并 删除 任意 语句 x; 
令 v 指 称 x 的 输出 变量 ; 
/ 语 甸 x 的 符号 化 解释 
newval : = u(x) (valin(v, x), 对 x 的 所 有 输入 v); 
if newval + valout(v, x) then begin 
valout(v, x) : = newval, 
for all (x, y) E€ defuse do begin 
oldval : = valin(v, y); 
valin(v, y) : = oldval A valout(v, x); 


if valin(v, y) + oldval then worklist : =worklist U {x}; 


end 
end 
end 
end propagateConst 





图 4-5 常数 传播 算法 


直观 上 ， 常 数 传播 以 所 有 这 样 的 赋值 语句 集合 开始 : 它们 对 一 个 变量 赋予 一 个 常数 值 。 
从 此 集合 中 选取 一 个 元 素 ; 用 定义 -使 用 边 求 出 该 定义 能 到 达 的 所 有 输入 。 对 每 一 个 这 样 的 输 
入 ， 向 后 追踪 定义 -使 用 边 ， 求 出 能 到 达 一 特定 输入 的 所 有 定义 。 如 果 所 有 定义 有 相同 的 常数 
值 ， 那 么 用 该 值 替换 此 输入 ; 否则 不 知 其 为 常数 。 如 果 输 入 被 替换 ， 那 么 可 能 建立 一 个 新 的 
常数 赋值 ;如 果 做 了 以 上 这 一 步 ， 则 将 此 赋值 语句 加 到 workiist 集 合 中 。 

常数 传播 需要 的 时 间 是 CUV+ 局， 其 中 是 程序 中 语句 的 数目 ，E 是 定义 -使 用 图 中 边 的 数 
目 。 为 了 看 清 这 一 点 ， 注 意 一 个 语句 最 多 只 有 两 次 被 放 入 worklist 中 ， 仅 当 它 的 输出 值 在 格 中 
被 降低 时 才 将 它 加 到 worklist 中 。 因 为 最 长 的 向 下 链 不 多 于 两 条 边 ， 输 出 值 能 最 多 下 降 两 次 。 
因此 主 循 环 体 执行 O(N) 次 。 最 内 层 forall 循 环 在 定义 -使 用 边 上 迭代， 这些 边 从 单个 语句 发 射 。 
累计 起 来 ,循环 体 对 每 条 边 最 多 执行 两 次 ， 因 为 从 worklist 中 能 取 到 边 的 源 点 不 超过 两 次 。 因 
此 最 内 层 forall 循 环 体 需要 的 时 间 为 O(E)， 而 整个 过 程 为 O(N + E). 
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4.4.4 静态 单 赋值 形式 

在 图 4-5 中 有 一 个 与 常数 传播 算法 有 关 的 问题 ， 是 在 有 控制 流 的 时 候 定 义 - 使 用 边 的 数量 
能 生长 得 非常 大 。 图 4-6 介 绍 一 个 说 明 此 问题 的 例子 。 语 句 $1,，52 和 53 都 定义 了 变量 XY。 这 些 定 
义 经 由 语句 $4 都 达到 语句 $s，Se 和 5; 中 的 使 用 。 因 为 每 个 定义 能 到 达 每 个 使 用 ， 所 以 定义 -使 
用 边 的 数量 与 语句 数量 的 平方 成 正比 。 在 这 种 特殊 情况 下 ， 有 9 条 边 : (S51,5Ss)，(Si, 56)， 
(81,57), (82,55), (S2,56), (82,87), (83,55), ($3,S6) 和 (Ss,S;)。 因 为 常数 传播 需 时 O(N 十 
E)， 且 E 与 N? 成 正比 ， 所 以 对 整个 算法 来 说 ， 需 要 的 时 间 是 语句 数量 的 二 次 方 。 


Sı 


Ss 





图 4-6 定义 -使 用 的 例子 


减少 操作 数量 的 一 种 方法 是 在 语句 S4 的 结 点 中 放 一 个 特殊 的 伪 操作 : 

X=X 

因为 此 定义 消除 语句 $!:，5z 和 Ss 中 建立 的 Xx 的 值 ， 故 在 修改 后 的 程序 中 定义 -使 用 边 的 总 数 
是 6 条 : (5S1,54),，(Sz,S4), (S3,S4), (Sa,Ss), (S4,Se) 和 (Sa, S7) 0 | 

这 个 思想 能 与 一 种 方法 结合 ， 为 每 个 标量 变量 域 提供 惟一 的 名 字 ， 产 生 静 态 单 赋值 形式 
(通常 缩写 成 SSA )， 这 是 定义 -使 用 图 的 一 种 变化 ， 具 有 下 列 性 质 : 

(1) 每 个 赋值 语句 创建 一 个 不 同 的 变量 名 。 

(2) 在 控制 流 汇合 点 插入 一 特殊 操作 将 相同 变量 的 不 同 实现 合并 在 一 起 。 

图 4-7 给 出 的 是 图 4-6 中 例子 的 静态 单 赋值 图 。 此 图 类 似 于 原 控制 流 图 ， 这 不 是 巧合 ， 因 为 
合并 的 结 点 插 在 控制 流 路 径 的 合并 处 。 

静态 单 赋值 形式 表示 的 定义 -使 用 图 对 分 析 来 说 有 许多 优点 ， 其 中 最 重要 的 一 点 是 改善 像 
常数 传播 这 样 的 算法 的 性 能 ， 并 且 减 少 图 的 大 小 。 

构造 SSA 通 常 分 为 两 个 主要 阶段 进行 : 

(1) 需要 标识 放 合并 函数 (MAOH KR) 的 地 方 ， 

(2) 变量 重 命名 ， 为 每 个 定义 点 创建 惟一 的 名 字 。 

在 我 们 能 标识 插入 函数 的 点 之 前 ， 需 要 考虑 一 下 我 们 的 目标 。 为 了 保持 图 很 小 ， 我 们 应 当 
仅 在 以 下 一 些 点 上 引入 函数 : 它们 对 维持 所 要 求 的 图 的 性 质 是 必要 的 ， 最 重要 的 是 仅 有 一 个 定 
义 到 达 每 个 变量 使 用 。 因 此 ， 我 们 将 在 这 种 块 的 开始 处 为 一 给 定 的 变量 x 插入 一 个 函数 : BR 
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有 多 个 前 驱 ， 如 果 通 到 那些 前 驱 之 一 的 每 条 路 径 包 含 - -个 定义 ， 其 中 到 达 其 他 前 驱 之 一 的 某 条 
路 径 被 绕 过 。 在 该 块 开始 处 需要 x 的 $9 函数 ， 为 了 保证 不 会 有 多 于 一 个 * 的 定义 到 达 后 继 的 使 用 。 


Sı 


Ss 





图 4-7 图 4-6 的 静态 单 赋值 形式 


控制 边界 ”为 了 标识 要 求 的 插入 点 ， 我 们 将 引入 控制 结 点 (dominator) 和 控制 边界 
(dominance frontier) 的 概念 。 


定义 4.2 在 具有 单 出 口 结 点 的 有 向 图 G 中 ， 结 点 X 在 G 中 支配 (或 控制 ) 结 点 了 Y， 如 
果 从 G 的 入 口 结 点 到 7 的 任何 路 径 必 经 过 X。 结 点 X 严 格 地 控制 Y， 如 果 X 控 制 Y 目 XY。 


在 有 向 图 中 计算 控制 结 点 的 问题 已 为 众多 研究 者 探讨 过 [198，138]。 计 算 控 制 结 点 的 最 简 
单方 法 是 将 它 作为 一 个 数据 流 问 题 。 令 dominators(b) 是 顶点 的 集合 ， 这 些 顶 点 控制 顶点 b。 根 
据 常规 ， 我 们 将 总 假定 p E dominators(b)。 下 面 的 数据 流 方程 组 对 计算 控制 结 点 是 充分 的 : 


dominators(x) = {HU ,ol dminators( y) (4-2) 


可 以 用 图 4-2 介 绍 的 迭代 方法 的 变种 求解 此 方程 ， 其 中 所 有 的 dominators 集 合 初始 化 为 泛 集 ， 
使 其 到 达 一 个 最 大 的 不 动 点 〈 见 图 4-8)。 

此 算法 继承 迭代 方法 的 渐 近 运行 时 间 一 一 O(N + E)N) 个 集合 操作 。 然 而 ， 对 于 控制 流 图 
是 可 规约 的 特殊 情况 ( 即 它 不 包含 多 入 口 循环 )， 如 大 多 数 良 结构 图 那样 ， 假 设 以 深度 优先 顺 
序 处 理 图 的 顶点 ， 很 容易 看 出 算法 一 遍 就 收敛 了 。 这 是 因为 在 可 规约 图 中 ， 一 条 回 边 的 源 点 
的 控制 结 点 集 是 汇 点 的 控制 结 点 集 的 超 集 。 这 样 ， 回 边 不 再 进一步 减少 它们 的 汇 点 的 控制 结 
点 集 。 因 此 对 于 可 规约 图 ， 此 算法 仅 需 O(N+EE) 个 集合 操作 。 


定义 4.3 ”在 图 G 中 指定 一 个 顶点 x+， 它 的 直接 控制 结 点 是 顶点 y E dominators(x) 
一 {x}， 使 得 如 果 z E dominators(x) — {x}, Wz E dominators(y). 


换 句 话说 ， 顶 点 x 的 直接 控制 结 点 必须 严格 地 控制 z， 并 且 受 x 的 每 一 个 其 他 控制 结 点 的 严 
格 控制 。 

一 旦 得 到 控制 结 点 集 ， 就 容易 构造 直接 控制 结 点 树 。 注 意 ， 由 于 x 的 直接 控制 结 点 ?必须 
受到 x 的 每 个 控制 结 点 的 控制 (x 自身 除外 )， 那 么 x 的 直接 控制 结 点 必须 是 dominators(x) — {x} 
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的 成 员 ， 它 具有 最 大 的 控制 结 点 集 。 基 于 此 观察 的 结果 ， 我 们 可 以 构造 分 两 遍 的 过 程 ， 用 来 
建立 直接 控制 树 ， 每 遍 费 时 不 超过 CUV”)。 





procedure iterateDom(G) 
// G=(N, E) 是 输入 控制 流 图 ， 其 中 
1/ N 是 基本 块 集合 
/ E 是 控制 流 边 的 集合 
Hf dominators(b) 是 块 b 的 控制 结 点 集 
for eachbeNdo 


证 predecessors(b)=¢ then dominators(b)= {b} 
else dominators(b) =N; 

changed : = true; 

while changed do begin 
changed : = false; 
for each b £ N do begin 


newDoms : = dominators(b); 


for each p £ predecessors(b) do 


newDoms := newDoms N dominators(p); 

newDoms :=newDoms U {b}; 

if newDoms ! = dominators(b) then begin 
dominators(b) :=newDoms; 
changed := true; 

end 

end 
end 
end iterateDom 


图 4-8 选 代 控制 结 点 的 构造 


(1) 对 于 每 个 顶点 zx， 加 注 它 控制 结 点 集中 的 顶点 数目 。 

(2) 对 于 每 个 顶点 xz， 设置 idom(z) Adominators(x) - {x} 中 具有 的 最 大 控制 结 点 集 的 顶点 。 

Lengauer 和 Tarjan 研 究 出 一 个 算法 ， 用 来 构造 直接 控制 结 点 关系 ， 最 坏 情 况 下 需 时 
O(Ea(N, 5)， 其 中 N 和 E 分 别 是 控制 流 图 中 的 结 点 数 和 边 数 ，ao 是 一 个 增长 非常 慢 的 国 数 ， 它 
与 Ackerman 国 数 的 逆 国 数 有 关 [198]。 由 于 函数 w 增 长 很 慢 ， 所 以 算 靶 实际 上 与 输入 图 大 小 成 
线性 关系 。Harel 改 善 了 此 算法 ， 使 它 在 最 坏 的 情况 下 是 线性 的 [198]。 | 


定义 4.4 ”对 给 定 的 块 [， 控 制 边界 DF(x) 是 这 样 的 块 7 的 集合 ，y 的 某 个 前 驱 结 点 
在 控制 流 图 中 受 x 的 控制 ， 但 y 自 身 不 受 x 严格 控制 。 


图 4-9 给 出 一 个 计算 控制 流 图 中 每 个 块 的 控制 边界 的 算法 。 

我 们 必须 说 明 算 法 ConstructDF 正 确 地 构造 控制 边界 。 就 是 说 ， 在 算法 执行 后 y E DF(x), 
当 且 仅 当 y 是 在 x 的 控制 边界 中 。 

为 了 看 清 这 一 点 ,假设 y 是 在 x 的 控制 边界 中 。 如 果 它 是 x 的 一 个 后 继 结 点 ， 但 不 受 * 的 控 
制 ， 则 在 步骤 ;中 将 它 加 入 DF(x) 中 。 假 设 它 不 是 x 的 后 继 结 点 ， 则 在 控制 结 点 树 中 存在 某 个 
控制 结 点 序列 {x1, X2, …, Xa 使 得 


x idom x, idom x, ...idom x, 
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这 里 y 是 x, 的 后 继 结 点 、 但 x 不 是 y 的 严格 控制 结 点 。 注 意 没 有 顶点 x 能 控制 y， 因 为 在 控制 结 点 
树 中 的 所 有 前 驱 结 点 (包括 x) 必须 控制 ?， 这 与 假设 矛盾 。 由 于 顶点 是 按 逆 控 制 结 点 顺序 处 
理 的 ， 将 首先 处 理 x,， 并 由 将 y 加 入 到 DF(x,) 中 。 随 后 当 处 理 控制 链 上 的 其 他 元 素 时 ， 由 ZL 
将 ?加 到 它们 的 控制 边界 的 每 一 个 当中 去 。 因 此 最 终 将 ?加 到 DFGo 中 。 


procedure ConstructDF(G, DF) 
1 G 是 输入 控制 流 图 
H DEO) 是 x 的 控制 边界 中 集 本 块 集 
Mf idom(y) 是 控制 流 图 中 基本 块 y> 的 直接 控制 结 点 。 


Ly: 对 控制 流 图 G 求 直接 控制 结 点 关系 idom; (对 一 个 具有 单 入 口 的 控制 流 图 ， 此 关系 形成 一 棵 树 ， 以 入 口 
结 点 作为 根 。) 
令 是 控制 结 点 树 的 这 拓扑 列表 ， 使 得 如 果 x 控 制 y， 则 在 中 x 跟随 y 之 后 ; 


: while / + Ø do begin 
邻 x 是 ! 的 第 一 个 元 素 ; 
从 [中 删除 她 


a: for all x 的 控制 流 后 继 结 点 y do 
if idom(y) + x then DF(x) : = DF(X) U {y}; 


Ly: for all z 使 得 idom(z)=x do 
for all y E DF(z) do 
if idom(y) + x then DF(x) := DF(x) U {y}; 
end 
end ConstructDF 





图 4-9 控制 边界 构造 算法 


另 一 方面 ， 如 果 此 算法 将 一 顶点 加 入 DF(x) 中 ， 则 该 顶点 必须 是 在 x 的 控制 边界 中 。 显 然 ， 
在 中 加 语句 就 是 这 种 情况 ， 因 为 此 循环 简单 地 实现 控制 边界 定义 。 假 设 步 又 将 某 个 顶点 y 不 
正确 地 加 到 了 DF(x) 中 。( 我 们 可 以 假定 ?是 第 一 个 被 不 正确 地 加 入 的 顶点 。) 因此 ， 存 在 一 个 z 
-使 得 x idom z， 并 且 y 在 DF(z) 中 。 因 为 是 在 x 之 前 处 理 的 ， 因 此 ， 根 据 假设 y 必 须 已 被 正确 地 加 
到 它 的 控制 边界 中 。 但 是 惟一 不 能 正确 地 将 y 加 入 到 DF(x) 的 情形 是 当 x idom y 时 。 然 而 ， 如 果 
这 样 的 话 ， 它 必须 是 直接 控制 结 点 ， 因 为 如 果 x 和 之 中 的 任何 结 点 控制 ?， 那 么 y 可 能 不 在 z 的 控 
制 边界 中 。 但 这 是 不 可 能 的 ， 因 为 如 果 x 是 y 的 直接 控制 结 点 ， 则 绝 不 会 在 中 被 加 到 DF(x) 中 。 

不 计算 控制 结 点 的 构造 , 算法 ConstructDF 在 最 坏 的 情况 下 需要 时 间 为 Ol(max(N +E, IDF). 
为 了 看 清 这 一 点 ,注意 拓扑 排序 需 时 OW 十 E)， 而 对 控制 流 图 中 每 个 结 点 在 标号 处 执行 循环 
头 一 次 ， 或 者 说 需要 OCN) 次 。 对 每 个 结 点 的 每 个 控制 流 后 继 结 点 ， 在 [进入 此 循环 一 次 ， 总 
共 需 O(E) 次 ， 因 为 循环 体能 在 常数 时 间 内 实现 ， 此 循环 总 共和 需要 的 时 间 为 O(E)。 

在 标号 L 的 循环 更 加 复杂 ， 对 控制 结 点 树 中 的 每 条 边 执 行 此 循环 一 次 ,但 是 由 于 每 个 结 | 
点 最 多 有 一 个 直接 控制 结 点 ， 因 此 执行 循环 头 只 需 O(N) 次 。 对 于 给 定 的 结 点 x 的 控制 边界 中 153 
的 每 个 元 素 ， 内 循环 最 多 执行 一 次 ， 所 以 此 循环 手套 需 时 OQDF1)。 

注意 ，ConstructDF 所 花 的 时 间 与 它 的 最 大 输入 和 输出 量 成 比例 。 因 为 一 个 算法 必须 至 少 
要 和 二 者 之 中 任何 一 个 所 需要 的 时 间 一 样 ， 所 以 这 个 算法 是 优化 的 。 

确定 插入 位 置 ”一 旦 我 们 有 了 有 效 的 控制 边界 ， 我 们 就 能 用 图 4-10 中 的 过 程 确 定 函 数 的 
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所 有 位 置 。 此 算法 基于 这 样 的 简单 观察 : 如 果 块 xz 包含 变量 ?的 一 个 定义 ， 那 么 对 ?的 $ 国 数 必 
须 插 在 DF(x) 中 每 块 的 关上 ， 因 为 有 一 条 可 选 的 路 径 达 到 这 些 块 中 的 每 一 块 而 不 经 过 zx， 因 此 
包含 y 的 一 个 不 同 定 义 。 一 旦 在 块 z 中 插入 了 ?的 $ 国 数 ， 那 么 根据 传递 性 ， 我 们 还 需 在 PFCz) 的 
每 个 元 素 中 插入 一 个 ?的 $ 国 数 。 


procedure LocatePhi(G, DF, PutPhiHere) 
1 G 是 输入 控制 流 图 
/ DF 是 控制 边界 图 ， 其 中 
I DF(x) 是 基本 块 x 的 控制 边界 中 块 的 集合 ， 即 DF 图 中 x 的 后 继 结 点 ， 
// Deflx) 是 在 基本 块 x 中 定义 的 变量 集 。 
H PutPhiHere(x) 是 变量 集 ， 有 关 的 和 函数 必须 插 在 块 x 的 开始 处 。 


求 控制 边界 图 DF 中 的 最 大 强 连通 区 域 的 集合 {51, S2 … Sm) (使 用 Tarjan 深 度 优先 搜索 算法 ) ; 


通过 约 简 每 个 5; 成 为 单 结 点 ，DF 中 的 一 条 边 (x,y) 变 为 DF 中 的 一 条 边 (Sa 5,))， 其 中 5 是 包含 x* 的 区 域 ， 
5, 是 包含 y 的 区 域 ， 这 样 从 DF 构造 出 DF.; (ER: 删除 从 一 个 区 域 到 自身 的 那些 边 。) 


令 (My May …Tm) 是 DF 的 m 个 结 点 ， 其 编号 顺序 与 D4 一 致 ( 使 用 拓扑 排序 得 到 的 序 ); 


for i: = 1 to m do begin 


Defn BATH MA Ax, Def) 的 并 集 ; 
PutPhiHere(n,) BAZ; 
end 


for i:=1tomdo 
for each DF,(1;) 中 的 mm do 
PutPhiHere(n,) : = PutPhiHere(x)) U Defn); 
for i:=1 to m do begin 
if zw 是 一 强 连 通 区 域 或 自 循环 then 
PutPhiHere(7) : = PutPhiHere(x,) U Def(x,); 
for each x E mm 外 有 一 个 前 趋 结 点 do 
PutPhiHere(x) : = PutPhiHere(x)); 
end 
end LocatePhi 





图 4-10 TE > PR Bie E 


另 一 个 观察 到 的 结果 使 算法 更 加 有 效 。 在 DF 图 中 可 能 有 一 个 环 。 由 两 个 顶点 构成 的 循环 
是 最 简单 的 例子 ， 循 环 外 面 的 单个 顶点 直接 转移 到 循环 中 的 每 个 顶点 。 于 是 每 个 顶点 是 在 另外 
一 个 的 控制 边界 中 。 然 而 ， 处 理 这 样 的 循环 是 简单 的 ， 因 为 如 果 在 此 循环 的 任何 结 点 中 必须 放 
置 一 个 函数 的 话 ， 那 么 也 必须 在 循环 的 每 个 人 口 结 点 中 放置 一 个 ， 这 是 由 于 上 面 所 述 的 传递 
性 需要 的 。 因 此 ， 为 了 传播 的 目的 ， 我 们 能 将 DF 图 中 的 强 连通 区 域 当成 一 些 单个 的 顶点 处 理 。 

从 这 些 观察 结果 应 清楚 地 看 到 ， 算 法 为 函数 计算 了 正确 的 位 置 ， 并 且 需 要 的 时 间 是 DF 
图 中 结 点 数 的 线性 关系 。 应 当 看 到 DF 图 比 控制 流 图 大 得 多 。 事 实 上 ， 在 最 坏 的 情况 下 能 与 控 
制 流 图 大 小 的 平方 成 比例 ， 虽 然 这 种 情况 是 少见 的 [97]。 目 前 已 证 明确 定 $ 函 数位 置 需要 的 时 
间 与 控制 流 图 的 大 小 成 比例 [253]。 

应 当 指 出 ， 不 在 目标 变量 废弃 的 交汇 结 点 的 开始 处 放置 任何 这 样 的 函数 ， 能 有 效 地 减少 中 
函数 的 数量 。 图 4-10 中 算法 的 简单 改进 ， 与 通过 选 代 分析 构 造 的 每 个 块 上 的 活 变量 集 相 结合 ， 
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将 足以 实现 此 目标 。 

在 SSA 形 式 的 构造 中 留 下 的 是 重 命名 变量 和 建立 SSA 边 。 这 能 用 一 种 简单 的 方法 实现 : 
将 惟一 的 索引 名 冉 给 在 每 个 定义 点 产生 的 值 ， 包 括 $ 函 数 。 然 后 应 用 4.4.1 节 中 描述 的 reaches 
传播 算法 能 确定 哪个 值 到 达 每 个 使 用 ， 因 为 一 旦 插入 了 $ 国 数 ， 则 仅 有 一 个 定义 能 到 达 任 何 
使 用 。 

虽然 SSA 形 式 不 直接 修改 早先 描述 的 死 代码 消除 和 常数 传播 算法 的 结构 ， 但 是 对 下 一 节 
中 要 处 理 的 表达 式 前 向 替换 和 归纳 变量 替换 算法 将 从 它 的 特殊 性 质 获得 重大 好 处 。 


45 ”归纳 变量 暴露 
死 代 码 消除 和 常数 传播 两 种 变换 依靠 的 都 是 定义 ~ 使 用 图 中 相当 简单 的 模式 。 归 纳 变量 替 
换 是 更 加 复杂 的 变换 ， 并 需要 相当 复杂 的 模式 的 识别 。 因 此 ， 归 纳 变量 替换 通常 需要 一 个 复 
杂 的 分 析 程 序 框架 。 鉴 于 存在 这 样 的 架构 并 已 知 以 下 的 事实 : 归纳 变量 替换 的 原始 需要 起 因 
于 将 普通 程序 设计 行为 变 成 一 种 更 符合 依赖 测试 需要 的 形式 的 必要 性 ， 所 以 归纳 变量 替换 阶 
” 段 通常 不 只 是 复制 辅助 归纳 变量 。 一 个 普遍 的 扩展 是 将 区 域 不 变 的 表达 式 前 向 代入 下 标 中 。 
在 这 一 节 我 们 将 介绍 前 向 替换 和 循环 归纳 变量 替换 的 算法 。 然 后 我 们 将 这 些 材料 捆绑 在 
一 起 ， 讨 论 如 何 使 它们 一 起 工作 。 
4.5.1 前 向 表达 式 蔡 换 
下 面 是 一 个 有 用 的 前 向 替换 的 例子 : 
DO I = 1, 100 
K = I+2 
S; A(K)=A(K) + 5 
ENDDO 
这 里 ,程序 员 在 他 的 代码 中 作 了 某 些 编译 器 的 工作 ， 实 施 公共 子 表达 式 消除 ， 将 两 个 下 标 计 
算 压 缩 成 单个 变量 。 可 惜 依 赖 测试 程序 计算 来 自 对 数组 A 的 引用 的 依赖 将 出 现 问题 ， 这 是 因为 
K 的 使 用 ， 它 不 是 一 个 归纳 变量 而 又 在 循环 中 A 的 下 标 里 变化 。 前 向 替换 K 产 生 
DO I = 1, 100 
Sı A(I+2) = A(I+2) + 5 
ENDDO 
得 到 一 种 依赖 测试 容易 处 理 的 形式 。 另 外 ， 如 果 对 一 向 量 机 编译 这 个 例子 ， 那 么 生成 的 代码 
将 是 非常 有 效 的 。 假 定 确定 第 一 种 形式 是 可 向 量化 的 (的确 可 以 )， 将 通过 扩展 K 为 一 临时 向 
量 ， 并 用 此 临时 向 量 作为 A 的 分 散 -聚集 索引 ， 它 会 被 向 量化 。 第 二 种 形式 产生 一 种 更 简单 的 
向 量 操作 。 
实施 归纳 变量 替换 和 前 向 表达 式 替 换 不 仅 需要 定义 -使 用 边 ， 还 需要 某 种 控制 流 分 析 。 一 
个 定义 归纳 变量 的 语句 ， 在 循环 的 每 个 迭代 中 必定 被 执行 。 类 似 地 ， 在 一 个 定义 被 向 前 替换 
之 前 ， 必 须 保证 在 它 替 换 到 语句 中 之 前 总 是 在 一 循环 迭代 中 执行 该 定义 。 这 些 性 质 很 容易 用 
来 确定 我 们 是 否 有 效 地 使 用 了 SSA 图 ， 以 及 我 们 是 否 有 一 个 简单 的 过 程 来 确定 哪些 语句 是 在 
给 定 的 循环 里 面 和 哪些 不 在 里 面 。 
为 了 确定 一 特定 的 语句 是 否 在 一 给 定 的 循环 中 ， 我 们 需要 对 每 个 语句 维护 一 个 独立 的 数 
据 结构 ， 用 来 确定 语句 艇 在 其 中 的 一 组 循环 。 如 果 给 定 的 循环 [是 在 包含 S 的 循环 嵌 套 中 ， 则 
语 旬 5S 是 在 循环 L 中 。 特 别 地 ， 如 果 循 环 层 是 六， 我 们 只 需 测 试 包含 5 的 k 层 循环 是 否 竺 于 L。 如 
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果 我 们 维护 一 个 包括 每 个 语句 的 循环 标识 符 栈 、 那 么 很 容易 做 到 这 一 点 。 

使 用 这 种 机 制 ， 我 们 能 开发 一 个 简单 的 前 向 替换 的 过 程 ， 处 理 只 涉及 循环 不 变量 和 循环 
归纳 变量 的 任何 表达 式 。SSA 图 使 它 很 容易 判断 一 个 给 定 的 表达 式 是 否 符合 这 种 需求 。 给 定 
一 个 语句 S$ 做 为 前 向 替换 的 候选 ， 我 们 简单 地 检查 到 S$ 的 每 条 SSA 边 。 如 果 此 条 边 来 自 循环 中 
的 一 个 语句 ， 那 么 该 语句 必须 是 循环 归纳 变量 在 循环 体 开始 处 的 $9 结 点 。 否 则 此 量 包含 一 个 表 
达 式 而 不 是 在 循环 内 变化 的 循环 归纳 变量 ， 并 且 我 们 必须 排除 前 向 替换 。 

实际 上 ， 上 面 的 陈述 并 不 完全 正确 。 在 实际 使 用 之 前 可 能 有 一 个 循环 不 变 的 赋值 语句 ， 
如 下 所 示 : 


DO I=1,N 
Si rc = IB 118 是 循环 不 变 的 
S: IX = Ic + 5 
ENDO 
KIKA “1C+5” FEAR, AAR ICH TMA SAB. Ain, RNB 
程 通过 依 序 处 理 循 环 中 的 语句 将 避免 所 述 的 这 个 问题 。 因 此 为 前 向 替换 考虑 $: 右 端 之 前 ， 对 
IC 的 赋值 将 被 前 向 替换 到 语句 S: 中 。 
回 到 前 向 替换 算法 ， 下 面 的 程序 说 明 在 一 个 00 循 环 被 扩展 成 更 简单 的 代码 之 后 ， 标 准 的 
循环 归纳 变量 是 如 何 增加 的 : 
DO I = 1,N 
ENDDO 
变 成 


I=1 
L IF(I>N) GO TOE 


I = I+] 
GO TOL 
E 


其 中 L 和 E 是 惟一 的 数字 标号 。 归 纳 变量 的 更 新 发 生 在 循环 结尾 处 ， 是 在 所 有 使 用 它 的 语句 之 
后 。 所 以 ， 标 准 循环 妇 纳 变量 的 每 次 使 用 必须 有 一 条 来 自 $ 结 点 的 边 ，$ 结 点 正好 在 循环 人 口 
之 后 合并 归纳 变量 的 值 。 

一 且 确 定语 句 S 能 被 前 向 替换 ， 那 么 过 程 能 被 执行 : 检查 从 目标 语句 到 另 一 个 在 循环 中 不 
是 $ 结 点 的 语句 的 每 条 边 。 对 于 每 条 这 样 的 边 ， 在 SSA 边 的 汇 点 上 的 语句 中 我 们 用 $ 的 右 端 替 
换 S$ 堪 端的 每 一 次 出 现 。 图 4-11 介 绍 遵循 此 方法 的 前 向 表达 式 替 换算 法 。 

正如 我 们 早先 指出 的 ， 此 算法 必须 依 序 从 头 到 尾 应 用 到 循环 中 的 各 个 语句 上 。 按 此 做 法 ， 
前 向 替换 链 能 减少 循环 中 使 用 的 变量 个 数 ， 它 以 循环 中 附加 的 表达 式 复杂 性 为 代价 。 这 种 有 
序 的 应 用 是 图 4-16 (4.5.3 节 ) 中 介绍 的 变换 驱动 程序 的 一 部 分 。 

ForwardSub 还 需要 SSA 图 的 一 个 值得 注意 的 性 质 。 算 法 中 第 一 个 循环 追踪 从 外 面 进入 一 
个 语句 的 所 有 的 边 。 图 中 的 第 二 个 循环 追踪 从 一 个 语句 出 来 进 到 其 他 语句 的 所 有 的 边 。 为 使 
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此 算法 工作 ， 实 现 SSA 图 所 选择 的 任何 数据 结构 必须 保持 这 种 双向 性 。 


boolean procedure ForwardSub(S, L) 
/3 是 前 向 替换 的 候选 语句 
A 上 是 正在 其 中 实施 通 换 的 循环 
A 假设 有 关 诸 句 嵌 会 的 SSA 图 和 信息 
U 如 果 因 为 $S 有 循 坏 可 变 的 输入 ， 林 尝试 外 换 ， 则 返 四 true， 指 出 应 当 试 IV 赤 换 
1 ForwardSub 实 现 L 中 每 个 语句 的 替换 ， 它 的 右 端 变量 只 含 L 的 归纳 变量 或 L 的 不 变 上 其。 


证 S 应 用 -- 个 中 - 国 数 or S 有 副作用 then return false; 


H RETRE st 
for eachj 坟 和 人 3 的 SSA 边 e do begin 
S,=source_stmt(e); 
证 .是 在 循 坏 2Z 中 and 
3 定义 了 一 个 变量 而 不 是 上 的 归纳 变量 
then return true;// AREA GAA DE fe, (0 al RIB AAIV-sub 
end 


MFA AD AR OE H RA REER 
all_uses_gone = true; 
all_loop_uses_gone = true; 
for each 从 5 发 射出 的 SSA 边 e do begin 
S, = target_stmt($); 
if 5, 是 在 循 坏 LL 中 
if operation(S,) 关中 then begin 
用 rhs($S) 置换 target(e); 
/更 新 SSA 边 
for each}t Arhs(S) 的 SSA 边 ie do 
加 上 从 source_stmt(ie) 到 3 的 新 边 ; 
删 去 边 e; 
end 
else all_loop_uses_gone = false, 
else all_uses_gone = false, 
end 
if all_uses_gone and all_loop_uses_gone then delete(S); 
else if all_loop_uses_gone then S$ 移 出 人 循 坏 外 ; 


return false; 
end ForwardSub 





图 4-11 前 向 表达 式 末 换算 法 
使 用 返回 值 确定 是 否 要 对 语句 尝试 做 归纳 变量 替换 。 此 返回 值 将 在 4.5.3 节 中 介绍 的 驱动 
例 行 程序 中 使 用 。 因 为 对 $ 的 某 个 输入 是 在 循环 中 定义 的 ， 故 仅 当 未 尝试 前 向 替换 时 ， 返 回 值 
才 是 true ( 真 )。 注 意 ， 如 果 语 句 S 已 被 删除 或 移 去 ， 那 么 例 行 程 序 绝 不 会 返回 true。 
4.5.2 归纳 变量 替换 
讨论 前 向 替换 后 ， 现 在 是 集中 注意 力 于 归纳 变量 替换 的 时 候 。 第 一 个 任务 是 识别 辅助 归 
纳 变量 。 
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定义 4.5 在 一 个 以 
DO I = LB,UB,S 
为 循环 头 的 DO- 循 环 中 ， 一 个 辅助 归纳 变量 是 它 在 循环 中 使 用 的 每 个 位 置 L 处 能 
正确 地 表示 成 
cexpr x I + iexpr, 
的 任何 变量 ， 其 中 cexpr 和 ;expr 是 表达 式 ， 它 们 在 循环 中 不 变化 ， 虽 然 在 循环 中 不 同 
的 位 置 上 可 能 需要 替换 iezp 六 的 不 同 的 值 。 


用 这 种 最 简单 的 形式 ， 一 个 辅助 归纳 变量 将 用 像 
K =K + cexpr (4-3) 
这 样 的 语句 来 定义 ， 再 次 强调 ， 其 中 cexpr 是 循环 不 变 式 。 
归纳 变量 识别 具有 很 大 的 普遍 性 。 某 些 程序 定义 了 一 组 归纳 变量 ， 如 下 例 所 示 : 


DOI=1, N 
J=K+1 


Kk=I+2 

ENDDO 
这 里 J 和 K 是 循环 的 辅助 归纳 变量 。 

我 们 可 以 用 4.5.1 节 的 过 程 判断 一 个 语句 是 否 在 一 给 定 的 循环 L 中 ， 以 帮助 我 们 判断 一 给 定 
的 语句 5 是 否定 义 一 个 归纳 变量 。 语 名 5 可 能 为 L 定 义 一 个 辅助 归纳 变量 ， 如 果 5 是 包含 在 一 个 
SSA 边 的 简单 环 中 ， 此 环 只 涉及 到 S 和 循环 中 的 另 一 个 语句 〈 一 个 $ 结 点 )。 要 求 $ 结 点 是 在 循 
环 的 人 口 处 ， 用 来 合并 循环 外 面 初始 化 的 循环 归纳 变量 的 值 和 循环 内 增加 的 值 。 如 果 此 环 包 
含 循环 内 的 其 他 $ 结 点 ， 那 么 它 不 是 一 个 归纳 变量 ， 因 为 它 在 每 次 选 代 中 不 被 更 新 。 

作为 例子 ， 考 察 下 面 的 循环 : 

DOI=1,N 


ACI) = B(K) + 1 
K=K+4 


DK) = D(K) + ACI) 

ENDDO 
它 有 图 4-12 中 定义 的 SSA 图 ， 为 简便 起 见 图 中 省 略 了 索引 变量 名 字 。 此 图 表明 SSA 图 仅 有 一 部 
分 涉及 循环 中 变量 K 的 定义 和 使 用 。 带 有 单 $ 结 点 的 环 是 一 个 辅助 归纳 变量 的 指示 信和 号。 

如 果 它 满足 环 的 条 件 ， 保 证 归纳 变量 是 在 每 次 循环 迭代 中 被 定义 ， 那 么 余下 的 惟一 要 求 
是 定义 的 表达 式 有 正确 的 形式 。 为 了 本 书 的 目的 ， 我 们 将 介绍 一 个 简单 的 识别 算法 ， 它 寻找 
的 仅 是 方程 (4-3) 中 表现 的 那 种 归纳 变量 的 形式 。 图 4-13 给 出 该 识别 算法 。 | 

过 程 isIV 开 始 时 保证 候选 语句 5 在 循环 的 每 次 迭代 中 被 执行 (如 果 不 被 执行 ， 它 应 当 包 含 
在 一 个 环 中 ， 此 环 在 循环 的 结束 处 也 包含 一 个 $ 结 点 )， 并 且 定 义 的 变量 在 每 次 循环 迭代 中 被 
更 新 (这 是 自 边 的 需要 )。 其 次 ， 它 保证 将 可 能 的 归纳 变量 加 到 右 端 ， 并 且 在 每 次 迭代 中 没有 
一 个 乘 系 数 和 对 候选 归纳 变量 加 上 或 减 去 一 个 常量 (cexpr)。 如 果 循 环 不 变 部 分 是 被 减 项 ， 
那么 它 被 求 反 ， 所 以 在 替换 阶段 可 以 假定 加 法 是 控制 操作 。 
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ACI) = B(K) + 1 
DCK) = D(K) + ACT) 


图 4-12 归纳 变量 识别 的 示例 SSA 图 






boolean procedure isIV(S, iV, cexpr, cexpr_edges, iV) 
1/ $S 是 候选 语句 ， 它 可 能 定义 了 一 个 辅助 归纳 变量 CIV) 
1/ 如 果 S 定 义 了 一 个 归纳 变量 is1Y 返 回 true 
1 iV 是 归纳 变量 
1/ cexpr 是 一 个 表达 式 ， 它 被 加 到 5 的 归纳 变量 中 
/1/ cexpr_edges 是 SSA 边 集 ， 这 些 边 是 从 循环 外 到 cexpr 的 
/PAY 检查 赋值 语句 9， 以 确定 它 是 否定 义 该 循环 中 包含 它 的 归纳 变量 。 
/ 此 过 程 仅 识别 归纳 变量 ， 修 改 1=1+ cexpr 的 形式 ， 这 里 cexpr 在 循环 中 是 常数 。 


is_iv=false; 
于 3 是 循环 中 SSA 图 的 环 路 部 分 ， 它 只 涉及 到 自身 和 循环 头 中 $ 结 点 
then begin 

令 iV 是 5 左 端 中 的 变量 ; 

令 cexpr 是 ，iV 已 被 消除 的 rhs(5); 

if iV 是 加 到 rhs(S) and 


cexpr 或 者 加 入 rhs($) 中 ,或 者 从 rhs(5) 中 减 去 


then begin 
loop_invariant : = true, 
cexpr_edges : =Ø; 
or each 边 e 到 达 cexpr do 
if source(e) 是 在 当前 循环 内 
then loop_invariant :=false; 
else cexpr_edges :=cexpr_edges U {e}; 
if cexpr}Arhs(S) "H $F #athen cexpr := — cexpr 
if loop_invariant then is_iv : = true ; 
end 
end 
return is_iv 
end isiV 





图 4-13 归纳 变量 识别 


图 4-14 和 图 4-15 介 绍 的 算法 ， 在 归纳 变量 一 旦 被 识别 时 ， 实 现 对 它 的 使 用 的 置换 。 

替换 算法 对 正在 被 置换 的 辅助 归纳 变量 使 用 两 个 不 同 的 表达 式 。 对 于 在 循环 中 出 现在 5 前 
面 的 语句 ， 使 用 的 乘 数 比 当前 的 迭代 数 小 1。5 之 后 的 语句 乘 数 是 当前 的 迭代 数 (I 是 循环 索 
a; L 是 它 的 下 界 ; U 是 它 的 上 界 ; SEBE). 
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procedure /VSub(S, L) 
/3 是 候选 语句 ， 它 可 能 定义 一 个 辅助 /TY 

/ZL 是 被 实施 替换 的 循环 

/IVSub 检 查 赋值 语句 ， 人 确定 它 是 不 是 -个 归纳 变量 ， 如 果 是 ， 则 棱 换 它 。 












If not is/V(S, iV, cexpr cexpr_edges) then return; 
/ 认 是 定义 的 辅助 归纳 变量 

1/ cexpr 是 加 入 iV 中 的 常数 表达 式 

H! cexpr_edges 是 迪 的 集合 ， 它 们 定义 在 cexpr 中 使 用 的 变量 
令 包 含 $ 的 最 内 层 循 环 的 头 是 
DO I=L, U, S$ 
令 5 指 称 iV 的 循环 头 中 的 g- 结 点 ; 


1/ SSA 保 证 只 有 一 条 从 循 坏 外 进入 5; 的 边 
邻 So 指 称 从 循环 外 到 5 的 单条 边 的 源 点 ; 
for each 从 5 到 相同 循环 中 一 个 结 点 的 边 e do begin 
// 在 循环 体 中 ，target(e) 在 s 之 前 到 来 
FA “target_expr(e) + (I~ L) / S) * cexpr” 赫 换 target_expr(e) 
update_SSA_edges(e, cexpr_edges, Sy); 















end 


for each 从 3 到 相间 循环 中 一 个 结 点 的 边 e do begin 
/在 循环 体 中 ，target(e) 在 3 之 后 到 来 
用 target_expr(e)+((I-L+S)1S)* cexpr$¥fftarget_expr(e); 
update_SSA_edges(e, cexpr_edges, Sy); 

end 


if 存 在 从 5 到 循环 外 顶点 的 边 then begin 
将 3 移出 循 坏 外 ， 
将 cexpr 改 为 ((U -L +S) / S) * cexpr 
加 一 条 从 So 人 色 $ 的 边 ; IMS, BIS; 
end 
else SEUMAS BI SHI; 
删 去 S% 和 有 从 So 到 So 的 边 ; 
return; 
end IVSub 
















图 4-14 归纳 变量 替换 算法 


procedure update_SSA_edges(e, cexpr_edges, So) 
Hefti, HRHELR MVE 
I cexpr_edges 是 边 的 集合 ， 它 们 是 从 循 坏 外 进入 更 新 的 表达 式 的 边 
I So 是 循环 外 iV 的 惟一 定义 点 。 


for each edge ie € cexpr_edges do 
加 上 一 条 从 source(ie) 到 target(e) 的 新 边 ; 
加 上 一 条 从 9o 到 target (e) 的 边 ; 
删除 边 e; 
end update_SSA_edges 





图 4-15 在 归纳 变量 替换 后 更 新 SSA 图 
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4.5.3 驱动 替换 过 程 

在 研究 应 用 于 前 向 替换 和 归纳 变量 替换 的 各 个 算法 后 ， 现 在 来 研究 将 各 个 变换 捆绑 在 一 
起 的 驱动 算法 。 有 两 个 关键 性 考虑 。 第 一 ， 由 于 在 一 内 循环 实施 归纳 变量 替换 ， 可 能 在 外 循 
环 引入 一 个 新 的 归纳 变量 〈 例 如 见 4.1 节 的 那些 例子 ) ， 归 纳 变量 替换 应 当 由 内 到 外 实施 。 第 
二 ， 前 向 替换 循环 不 变 的 表达 式 可 能 建立 某 些 新 的 归纳 变量 ， 表 明 应 当先 实行 循环 不 变 的 表 
达 式 替换 。 这 两 点 意见 浓缩 在 图 4-16 表 示 的 算法 1VDrive 中 。 


procedure IVDrive(L) 
/ZL 是 正 被 处 理 的 循环 ， 假 设 SSA 图 有 效 
l IVDrive 实 施 循 坏 L 上 的 前 向 栓 换 和 归纳 变量 答 换 ， 这 里 需要 递归 地 调用 它 自己 。 


for each 按 序 对 民 中 的 语句 8 do begin 
case(kind(S)) 
assignment: 
FS_not_done := ForwardSub(S, LY, 
if FS_not_done then [VSub(S, L); 
DO-1loop: 
IVDrive(S); 


` default: 


end case 


end 
end [VDrive 








图 4-16 归纳 变量 替换 驱动 程序 


对 于 归纳 变量 替换 ， 最 后 有 两 个 有 价值 的 评注 。 第 一 个 是 关于 循环 正规 化 (4.3 节 ) FIA 
纳 变 量 替 换 之 间 的 交互 问题 。 在 一 个 非 正规 化 循环 上 实施 妇 纳 变量 替换 时 ， 会 得 到 极为 低 效 


的 代码 。 
例如 ， 考 察 下 面 非常 一 般 的 例子 : 
DO I =L,U,S 
K=K+N 
.. = ACK) 
ENDDO 
应 用 图 4-14 中 描述 的 归纳 变量 替换 产生 
pOI=L,U,S 
.. = A(K+(I-L+S)/S*N) 
ENDDO 


K = K + (U-L+S)/S*N 
在 许多 机 器 上 不 能 执行 硬件 整数 除法 和 乘法 ; 即使 执行 ， 它 们 也 是 使 用 非常 低 效 的 指令 。 由 
于 在 循环 中 引入 整数 除法 和 乘法 ， 归 纳 变量 替换 产生 了 许多 低 效率 的 代码 。 通 常 应 用 众 所 周 
知 的 强度 削减 优化 试图 减少 多 数 常用 的 整数 乘法 ， 但 是 出 现在 循环 内 的 那 种 形式 不 能 用 这 种 
变换 来 消除 。 另 外 ， 新 下 标的 非 线性 性 质 意 味 着 对 它 做 依赖 测试 将 会 失败 。 总 之 ， 将 归纳 变 
量 禁 换 应 用 到 此 循环 上 是 无 济 于 事 的 。 

然而 ， 如 果 在 归纳 变量 替换 前 此 循环 被 正规 化 ， 
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I=1 

DO i = 1,(U-L+S)/S, 1 
K=K+N 
...= ACK) 
T=I+1 

ENDDO 
则 从 归纳 变量 替换 得 到 的 代码 是 更 合 平 人 意 的 : 

I=1 

DO i = 1,(U-L+S)/S,1 

«2 .= ACK+i*N) 

ENDOO 

K =K + (U-L+S)/S#N 

I = I + (U-L+S)/S 

此 代码 在 循环 内 只 有 一 个 整数 乘法 ， 强 度 肖 减 容易 将 它 消除 。 另 外 ， 此 下 标 能 容易 地 用 
第 3 章 描述 的 依赖 测试 处 理 。 总 之 ， 应 在 归纳 变量 替换 前 应 做 循环 正规 化 ， 使 稍 后 的 变换 更 
有 效 。 

第 二 个 评注 涉及 这 里 介绍 的 归纳 变量 替换 算法 的 简明 性 。 在 图 4-14 中 介绍 的 算法 是 一 个 
简单 的 版 本 ， 设 计 用 来 演示 有 关 的 一 般 原 理 。 通 常 在 循环 中 会 有 更 复杂 的 辅助 归纳 变量 ， 如 
下 面 的 例子 所 示 : 

D001=1,N,2 

K=K+1 
A(K) = ACK) + 1 
K=K+1 
A(K) = A(K) + 1 

ENDDO 

像 这 样 的 情况 ， 归 纳 变 量 识 别 仍 是 十 分 简单 的 一 一 含有 定义 妇 纳 变量 的 语句 将 在 循环 内 形 
成 一 个 SSA 图 环 ， 如 图 4-17 所 示 。 此 环 只 有 一 个 $ 结 点 ， 这 个 结 点 强制 放 在 循环 的 开始 。 当 然 
应 用 正规 的 约束 一 一 仅 允 许 循环 不 变量 的 加 和 减 。 再 一 次 要 注意 的 是 ， 为 了 简明 起 见 ， 索 引 
变量 名 (通常 是 在 SSA 图 中 ) 在 图 4-17 中 已 经 被 省 略 了 。 











A(K) = ACK) + 1 


ACK) = ACK) + 1 


图 4-17 复杂 归纳 变量 替换 的 SSA 图 


一 旦 识别 出 这 样 的 变量 ， 归 纳 变 量 替换 很 容易 适应 处 理 更 复杂 的 情况 。 首 先 将 定义 归纳 
变量 的 语句 从 g 结 点 开始 编号 为 {50, Si... 5,}。 然 后 ， 对 每 个 $: 赋 给 一 个 不 同 的 替换 公式 ， 这 
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取决 于 特定 语句 Si 在 刚 执 行 后 归纳 变量 的 聚集 值 。 实 现 的 细节 是 直截了当 的 。 
一 个 替代 策略 是 增强 前 向 替换 以 识别 区 域 不 变量 。 当 做 到 这 一 点 时 ， 对 K 的 第 一 个 赋值 可 
以 前 向 传播 ， 产生 
DO I= 1, N, 2 
A(K+1) = A(K+1) + 1 
K=K+1+i! 
A(K) = A(K) + 1 
ENDOO 
至 此 普通 的 归纳 变量 替换 将 完成 对 K 的 消除 。 扩 展 前 向 替换 以 识别 这 种 情况 是 直截了当 的 {20]。 
4.6 小 结 
我 们 已 介绍 了 几 个 变换 ， 让 更 多 的 下 标 成 为 标准 形式 ， 来 支持 依赖 测试 。 
*。 循环 正规 化 是 一 种 变换 ， 使 循环 从 标准 下 界 到 上 界 执行 ， 执 行 的 步 长 为 1。 在 许多 编译 165 


器 中 用 它 来 简化 依赖 视 试 ， 虽 然 它 有 若干 不 足 之 处 。 166 
“常数 传播 在 编译 时 用 已 知 的 常数 置换 未 知 值 的 变量 。 置 换 是 由 程序 中 一 个 数据 流 图 表示 
上 的 算法 执行 的 。 


“归纳 变量 赫 摧 消除 辅助 归纳 变量 ， 用 标准 的 循环 归纳 变量 的 线性 函数 置换 它们 。 归 纳 变 

量 替 换算 法 的 一 种 简单 变化 ， 可 用 来 实现 循环 嵌 套 中 的 表达 式 折 登 。 

这 些 变换 由 许多 数据 流 分 析 策 略 支持 ， 包 括 数据 流 算法 的 多 代 解 和 定义 -使 用 链 或 静态 单 
RIE (SSA) 形式 的 构造 。 


4.7 实例 研究 

原 PFC 实 现实 施 了 所 有 循环 嵌 套 的 正规 化 。 其 后 ， 它 应 用 了 轨 纳 变量 识别 、 前 向 替换 和 归 
纳 变量 替换 ， 都 是 遵循 这 一 章 介 绍 的 算法 。 由 于 实现 的 时 间 先 于 SSA 的 开发 ， 所 有 算法 采用 
了 定义 -使 用 链 。 这 对 某 些 过 程 增 加 一 点 额外 的 复杂 性 ， 但 是 很 有 效 。 

PFC 的 归纳 变量 替换 阶段 是 极为 系统 化 的 ， 并 且 能 处 理 同 一 循环 内 的 相同 归纳 变量 的 多 次 
更 新 。 它 从 循环 最 内 层 到 最 外 层 进行 ， 处 理 初始 化 ， 以 及 将 内 层 循环 生成 的 最 终 语 句 处理 成 
外 层 循环 进一步 替换 的 候选 。 结 果 表 明 在 PFC 系 统 中 归纳 变量 赫 换 阶段 对 向 量化 的 成 功 总 的 
来 说 是 很 关键 的 。 . 

PFC 在 每 一 个 主要 变换 阶段 之 后 ， 也 执行 系统 化 的 死 代 码 删 除 。 这 使 代码 更 清晰 和 更 易于 
理解 。 因 为 死 代码 删除 程序 不 包含 控制 依赖 边 ， 它 标记 的 所 有 控制 结构 绝对 有 用 。 因 此 它 必 
须 包 括 一 后 置 遍 ， 用 来 删 去 带 有 空子 句 的 循环 和 if 语 句 。 

Ardent Titan 编译 器 对 Fortran 使 用 一 组 类 似 的 算法 ,但 是 附带 有 处 理 C 优 化 的 任务 。 它 将 
附加 的 重任 放 在 归纳 变量 替换 中 。 因 为 C 的 前 端 对 带 有 ++ 操 作 符 的 表达 式 不 做 精细 的 副作用 分 
析 ， 故 为 生成 的 中 间 代 码 提供 了 许多 归纳 变量 替换 的 机 会 。 例 如 ， 源 代码 如 


While(n)!{ 
水 8 二 十 = *b++; 
mn 一 ; 
} 167 


C 前 端 会 将 它 翻 译 成 
whije(n) { 
temp_l = a; 
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a = temp_1+4; 
temp_2 = b; 

b = temp_2 + 4 

*temp_1 = *temp_2; 

temp_3 = n; 

n = temp_3-1; 

j 
一 旦 将 所 有 无 用 的 东西 清除 掉 ， 此 循环 很 容易 向 量化 (毕竟 它 仅 是 一 份 向 量 拷贝 ) 。 在 此 发 生 
之 前 ， 必 须 将 关键 赋值 语句 向 量化 成 

«(a+ 4*i)=*(b+4+i); 
这 样 的 形式 ， 其 中 i 是 生成 的 循环 归纳 变量 。 问 题 是 产生 这 种 形式 只 能 用 对 temp_1 和 temp_2 的 
赋值 前 向 替换 星 号 赋值 。 然 而 ， 在 对 a 和 b 的 更 新 被 前 向 移动 之 前 ， 不 能 做 这 种 替换 。 因 此 ， 
简单 的 技术 不 能 处 理 这 种 循环 。 

虽然 处 理 这 一 问题 的 理论 已 产生 非常 通用 的 技术 (使 用 部 分 元 余 消 除 的 各 种 策略 ， 例 如 
[215，75])， 因 为 实用 性 的 理由 ， 特 别 是 空间 方面 的 理由 ，Titan 编 译 器 设计 者 们 不 选用 它们 。 
编译 器 另行 使 用 一 种 简单 的 启发 式 解法 : 无 论 何 时 一 个 语句 被 奉 换 拒绝 ， 只 是 因为 其 后 的 语 
名 重新 定义 了 该 语句 使 用 的 一 个 变量 ， 那 么 后 面 的 语句 被 标记 为 “封锁 ”前 面 的 语句 。 当 一 
个 封锁 语句 被 前 向 替换 时 ， 则 要 重新 检查 它 所 封锁 的 所 有 语句 的 替换 。 因 此 ,在 当 它 保证 产 
生 某 个 替换 时 才 需 要 回溯 。 另 外 ， 替 换 此 语句 需要 的 多 数 分 析 不 需要 被 重复 。 因 此 ， 极 少 调 
用 回 湖 ， 但 是 当 调 用 回 谢 时 ， 它 是 极为 有 效 的 。 

对 C 中 使 用 的 变换 (特别 是 向 量化 ) 的 广泛 讨论 ， 一 直 推 迟到 第 12 章 。 

4.8 历史 评述 与 参考 文献 

从 Parafrase 系 统 [190] 开 始 ， 许 多 向 量化 编译 器 实施 循环 正规 化 。 数 据 流 分 析 有 大 量 文献 
[1$S，12$，164，169，182，218，264]。 这 里 描述 的 定义 -使 用 链 构造 ， 以 及 常数 传播 和 死 代 
码 消 除 算法 ， 在 概念 上 是 由 John Cocke 建 立 的。 这 里 所 用 的 系统 表示 归功 于 Kennedy[169]， 由 
Wegman 和 Zadeck 做 了 修改 [272] 。 

控制 结 点 构造 的 数据 流 方法 是 传统 的 方法 (例如 ， 见 Muchnick[218])。 然 而 ， 从 控制 结 
点 集 构 造 直接 控制 结 点 的 算法 是 新 的 ， 并 且 逐 浙 胜 过 Muchnick 介 绍 的 方法 。 然 而 ，Lengauer- 
Tarjan[198] 和 Harel[138] 的 直接 控制 结 点 关系 的 直接 构造 方法 比 这 里 描述 的 方法 逐渐 地 更 加 有 
效 。 

SSA 形 式 的 构造 归功 于 Cytron，Ferrante，Rosen，Wegman 和 Zadeck[97]， 尽 管 基 于 DF 图 
计算 函数 插入 位 置 的 明确 表述 是 他 们 的 方法 的 一 个 变种 。 线 性 时 间 的 SSA 构 造 算法 已 由 
Sreedhar 和 Gao[253] 建 立 。 

在 每 一 个 向 量化 编译 器 中 ， 已 有 各 种 不 同形 式 的 归纳 变量 替换 。 如 Allen，Kennedy 和 
Callahan[16，21，20] 描 述 的 ， 这 里 介绍 的 归纳 变量 替换 算法 已 在 PFC 系统 中 改写 成 SSA 形 式 。 
Wolfe[284，285] 介 绍 了 一 种 更 加 复杂 的 方法 。 
习题 

4.1 基于 第 3 章 的 测试 策略 ， 一 个 非 正 规 化 循环 的 哪 一 个 性 质 〈 非 单位 开始 索引 或 非 单位 
跨 距 ) 会 引起 最 大 困难 。 为 什么 ? 
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4.2 手工 正规 化 下 面 的 循环 : 
DO I = 1000, 1, -2 

ACI) = ACI) + B 
ENDDO 


4.3 OP AY OR FT BOER. HAERERAA Be A: 


Is =5 
DO I = 1, 100 
IS = IS + 10 
DO J = 2, 200, 3 
ACIS) = B(I) + C(J) 
IS =IS+1 
ENDDO 
ENDDO 


44 为 活跃 分 析 问 题 建立 类 似 于 方程 (4-1) 的 数据 流 方程 。 目 标 是 计算 变量 的 Live(b) 集 ， 
表示 在 程序 中 每 个 基本 块 b 的 入 口 处 这 些 变 量 是 “活跃 的 "。 在 程序 中 某 一 点 上 一 个 变量 是 活 
跃 的 ， 如 果 有 一 条 控制 流 路 径 从 该 点 到 此 变量 的 使 用 ， 并 且 在 它 的 使 用 之 前 ， 该 路 径 上 不 包 
含 此 变量 的 定义 。 提 示 : 考虑 两 种 情况 一 一 变量 活跃 是 由 于 同一 块 中 有 它 的 使 用 ， 以 及 变量 
活跃 是 由 于 在 某 个 后 面 的 块 中 有 它 的 使 用 。 

4.5 考虑 循环 嵌 套 ， 这 里 L1，L2，H1 和 H2 都 是 未 知 的 : 


DO J = L1, Hl, 7 
DO I = L2, H2, 10 
S A(I+J+3) = A(I+J) + C 
ENDDO 
ENDDO 


除开 从 语句 S 到 自身 关联 的 方向 向 量 (=,=)， 消 除 方向 向 量 的 前 景 如 何 ?” 为 什么 ? 提示 : 如 果 
你 正规 化 和 使 用 第 3 章 的 MIV 测 试 会 发 生 什 么 ? 








提高 细 粒 度 并 行 性 


5.1 引言 

本 章 和 于 一 章 介绍 依赖 在 串 行 代码 的 自动 并 行 化 中 的 应 用 。 按 照 历史 发 展 过 程 ， 我 们 从 
非 最 小 粒度 的 并 行 性 开始 。 这 种 类 型 的 并 行 性 在 向 量 机 和 指令 级 并 行 性 机 器 (如 VLIW 处 理 器 
和 超标 量 处 理 器 ) 中 是 很 有 用 的 。 因 为 大 多 数理 论 都 是 首先 从 向 量 机 发 展 而 来 的 ， 所 以 将 着 
重 于 向 量化 的 讨论 。 粒 度 敏 感 的 并 行 性 处 理 将 推迟 到 第 6 章 讨 论 。 

在 第 2 章 ， 我 们 提出 了 图 2-2 所 示 的 并 行 化 算法 codegen， 用 于 自动 寻找 Fortran 程 序 中 的 细 
粒度 并 行 性 。 这 个 算法 基本 上 仅 使 用 循环 分 布 和 语句 重 排 变换 寻找 所 有 可 能 的 并 行 性 。 在 本 
Bh, 我们 在 这 个 基本 的 代码 生成 算法 的 基础 上 进行 扩展 ， 方 法 是 通过 使 用 其 他 一 些 变换 ， 
例如 循环 交换 ， 将 细 粒 度 并 行 性 增加 到 一 定 的 量 ， 从 而 使 得 自动 向 量化 可 行 而 且 有 效 。 

我 们 用 和 矩阵 乘法 的 一 个 非常 典型 的 捉 行 编码 为 例 来 说 明 两 个 这 样 的 高 级 变换 的 能 力 : 

DOJ =1, M 

DOI =1,N 
T= 0.0 
DOK=1, L 

T=T+AIK) * B(K,J) 

ENDDO 
C(1,d) =T 

ENDDO 

ENDDO 


尽管 盾 阵 乘法 可 以 很 容易 地 手工 并 行 化 ， 但 是 codegen 应 用 于 这 个 循环 妊 套 却 找 不 到 任何 
向 量 操作 。 问 题 在 于 代码 中 使 用 了 标量 临时 变量 T， 它 引入 由 风 套 中 的 每 个 循环 携带 的 若干 依 
赖 。 大 部 分 这 样 的 依赖 可 以 通过 标量 扩展 消除 ， 在 其 中 把 标量 T 赫 换 为 临时 数组 T$: 


DOJ=1,M 
DOI=1,N 
T$(I) = 0.0 
DOK=1, L 
T$(I) = T$(I) + A(I,K) * B(K,J) 
ENDDO 
C(I,J) = T$(1) 
ENDDO 
ENDDO 


现在 I- 循 环 可 以 完全 围绕 它 所 包含 的 语句 分 布 : 
DOJ=1,M 
DOI=1,N 
T$(1) = 0.0 
ENDDO 
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DOI=1,N 

DOK=1, L 
T$(I) = T$(I) + A(I,K) * B(K,J) 

ENDDO 

ENDDO 

DOI=1,N 
C(I,J) = T$(1) 

ENDDO 

ENDDO 


最 后 ，I- 循 环 和 K- 循 环 被 交换 ， 把 向 量 并 行 性 移 到 最 内 层 的 位 置 。 通 过 循环 交换 ， 所 有 的 最 
内 层 I- 循 环 都 可 以 被 向 量化 ， 得 到 
DO I= 1，L 
T$(1:N) = 0.0 
DOK=1, N 
T$(1:N) = T$(1:N) + AC1:N,K) * B(K,J) 
ENDDO 
C(1:N,d) = T$(1:N) 
ENDDO 
标量 扩展 和 循环 交换 这 两 种 变换 创建 了 原来 并 不 存在 的 并 行 性 。 经 验 说 明 ， 如 果 没 有 这 
样 的 变换 ， 自 动 并 行 化 很 难 真正 有 效 。 
5.2 循环 交换 
循环 交换 一 一 交换 紧 仍 循环 中 两 个 循环 的 椒 套 顺序 一 一 是 提高 程序 性 能 最 有 效 的 变换 之 
一 。 下 面 的 例子 显示 它 在 向 量化 中 的 重要 性 : 
DO I=1, N 
DOJ=1, M 
S A(I,J+1) = A(I,J) +B 
ENDDO 
ENDDO 
这 个 例子 中 的 最 内 层 循环 携带 一 个 从 语句 5 到 其 自身 的 真 依赖 。 因 此 ， 图 2-2 中 给 出 的 问 
量 代 码 生 成 算 苇 codegen 无 法 作 任 何 向 量化 。 然 而 ， 如 果 交 换 这 两 个 循环 ， 
DOJ=1,M 
DOI=1,N 
S A(I,J+1) = A(I,J) +B 
ENDDO 
ENDDO 
依赖 关系 就 变 为 由 外 层 循 环 携带 ， 而 内 层 循 环 不 携带 依赖 。 对 此 媒 套 应 用 codegen 算 法 ， 内 层 
循环 将 被 向 量化 并 得 到 如 下 结果 : 
DO J = 1，M 
S A(1:N,J+1) = A(1:N,J) + B 
ENDDO 
在 本 例 中 ， 循 环 交换 通过 把 可 向 量化 的 循环 移动 到 最 内 层 而 提高 向 量化 效果 。 对 于 在 第 6 
章 讨论 的 粗 粒 度 并 行 化 而 言 ， 这 个 过 程 被 颠倒 过 来 ， 变 为 把 内 层 并 行 循 环 移动 到 最 外 层 以 增 
加 并 行 粒度 和 减少 同步 开销 。 
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为 了 看 出 循环 交换 实际 上 是 一 种 重 排序 变换 ， 可 以 把 循环 看 作 它 所 包含 的 语句 的 一 系列 
参数 化 实例 。 循 环 交换 改变 这 些 参数 化 实例 的 执行 顺序 ， 但 是 并 没有 产生 任何 新 的 实例 。 在 
以 下 代码 里 ， 令 S(I,) 表 示 参 数 为 1 和 J 的 语句 S 的 实例 。 换 名 话说 ，S(I,) 是 语句 S 在 迭代 向 
量 为 (I,J) 的 迭代 中 执行 时 的 实例 。 

00 9=1,M 

DOI=1,N 
s 
ENDDO 
ENDDO 


使 用 这 种 新 记 法 ， 我 们 可 以 看 到 在 这 段 代 码 中 ，S(1,2) 在 S(2,1) 之 后 执行 ， 但 是 在 循环 
交换 后 ， 它 变 成 在 5(2,1) 之 前 执行 。 因 此 循环 交换 实际 上 是 一 个 重 排 序 变换 。 因 为 是 重 排序 
变换 ， 故 其 合法 性 可 以 通过 数据 依赖 关系 判定 : 任何 重 排序 某 个 依赖 端点 的 循环 交换 是 不 合 
法 的 。 

5.2.1 循环 交换 的 安全 性 
并 非 所 有 循环 交换 都 是 合法 的 ， 下 面 的 例子 说 明 这 一 点 : 
D0 J=1,M 
DOI=1,N 
A(I,J+1) = A(I+1,J) + B 


ENDDO 
ENDDO 


按 原 来 的 执行 顺序 ，A(2,2) 在 I=2,J=1 时 被 赋值 ， 它 在 后 面 J- 循 环 的 一 次 迭代 中 ， 当 1=1 
且 J=2 时 被 使 用 。 如 果 作 了 循环 交换 ，A(2,2) 先 在 外 层 循环 的 第 一 个 迭代 (过 代 向 量 (1,2)) 
被 使 用 ， 而 后 在 第 二 次 迭代 (迭代 向 量 (2,1)) 中 被 赋值 。 因 此 ，、 这 个 例子 中 的 循环 交换 破坏 
依 束 关系， 导致 A(2,2) 使 用 获得 错误 的 值 。 

图 5-1 图 示 说 明 此 类 对 依赖 关系 的 破坏 。 该 图 显示 与 语句 3S(2,1) 有 关 的 各 种 不 同 的 依赖 关 
系 。 箭 头 从 语句 S 出 发 指向 在 它 后 边 执行 的 语句 。 灰 色 稍 头 表 示 前 边 描述 过 的 被 循环 交换 颠倒 
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方向 的 依赖 ; 如 果 J- 循 环 被 交换 为 内 层 循环 ， 这 条 依赖 边 尾部 的 语句 将 在 它 的 头 语句 之 前 执 
行 。 黑 色 税 头 表示 不 管 循环 如 何 交换 都 保持 不 变 的 依赖 。 
下 面 给 出 与 循环 交换 的 安全 性 相关 的 两 类 依赖 的 定义 : 


定义 5.1 ”对 于 给 定 的 一 对 循环 来 说 ， 一 个 依赖 是 阻止 交换 的 ， 如 果 交 换 这 两 个 
循环 会 改变 该 依赖 的 端点 的 顺序 。 


定义 5.2 ”一 个 依赖 是 交接 敏感 的 ， 如 果 在 循环 交换 以 后 该 依赖 仍然 由 同一 循环 
携带 。 即 是 ， 一 个 交换 敏感 的 依赖 随 着 原来 携带 它 的 循环 移动 到 新 的 层次 。 


在 图 5-1 中 ， 灰 色 的 依赖 是 阻止 交换 的 ; 水 平和 垂直 的 箭头 表示 交换 敏感 的 依赖 。 不 管 哪 
个 循环 选 代 得 “更 快 *,， 水 平方 向 的 依赖 将 由 I- 循 环 携带 ， 而 垂直 方向 的 依赖 将 由 J- 循 环 携 带 。 
剩余 的 箭头 〈 从 S(2,1) 指 向 5(3,2) 的 ) 表示 总 是 由 这 对 循环 中 的 外 层 循环 携带 的 依赖 。 这 样 
的 依赖 通常 称 为 交换 不 敏感 的 。 


定理 5.1 Dli, j) 是 一 个 有 z 层 循环 的 紧 候 从 套 中 某 依赖 关系 的 方向 向 量 。 那 么 
在 对 和 仍 套 中 的 循环 作 置 换 后 ， 该 依赖 的 方向 向 量 可 以 通过 对 Di, j) 的 元 素 作 同样 的 置 
换 确定 。 
证 明 由 定义 2.9 和 2.10， 可 知 方向 向 量 中 各 元 素 的 值 是 由 依赖 的 源 点 和 汇 点 的 迭 
代 向 量 i 和 j 中 各 元 素 的 相对 值 按 下 式 决定 的 : 
“<”, ai, <j, 
DG, jJ=\*=", MRE=K 
“>”, WRR je 
因为 循环 置换 只 是 置换 选 代 向 量 的 各 元 素 ， 所 以 方向 向 量 必须 以 完全 相同 的 方式 置换 。 


根据 定理 5.1 的 结论 可 见 ， 方 向 向 量 是 判断 循环 交换 结果 的 一 个 重要 工具 。 从 这 个 结论 以 
及 循环 交换 反 转 阻止 交换 依赖 的 方向 这 一 事实 容易 看 出 ， 阻 止 交换 依赖 的 依赖 方向 向 量 是 
(<,>)。 循 环 交换 后 ， 这 样 一 个 依赖 的 方向 向 量变 成 (>,<)， 显 然 ， 这 将 导致 以 不 同 的 顺序 访 
问 数据 。 为 了 将 这 些 观 察 扩 展 到 包含 多 个 依赖 的 循环 嵌 套 的 循环 交换 合法 性 测试 ， 我 们 还 需 
要 一 个 定义 。 
定义 5.3 “一 个 循环 供 套 的 方向 矩阵 是 这 样 一 个 矩阵 : 和 矩阵 的 行 表示 包含 在 婴 套 
中 的 语句 间 的 某 个 依赖 的 方向 向 量 ， 并 且 每 个 这 样 的 方向 向 量 都 被 表示 为 矩阵 中 的 
e 
注意 这 个 定义 允许 用 一 行 表 示 几 个 相同 的 方向 向 量 。 我 们 用 下 面 的 循环 供 套 来 说 明 这 个 
定义 : 
DOI=1,N 
0D0J=1,M 
DOK=1,L 


A(I+1,J+1,K) = ACT,J,K) + ACT, d+1,K+1) 
ENDDO 
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ENDDO 
ENDDO 


其 方向 矩阵 为 
矩阵 的 第 一 行 表 示 从 A(I+1,Jt1,K) 到 A(1,J,K) 的 真 依赖 ， 第 二 行 表示 到 A(I,J+t1,K+1) 的 真 
依赖 。 

不 难 将 定理 5.1 扩 展 到 方向 矩阵 。 因 为 循环 置换 在 某 个 特定 的 依赖 上 的 效果 能 反映 在 置换 
其 方向 向 量 的 分 量 上 ， 故 同一 置换 在 所 有 依赖 上 的 效果 即 可 反映 在 置换 依赖 矩阵 的 各 列 上 。 
例如 ， 若 上 例 中 最 外 层 循 环 被 移 到 最 内 层 位 置 ， 而 另外 两 个 循环 相应 地 向 外 移动 ， 就 得 到 如 
下 的 方向 矩阵 : 


拢 阵 的 第 二 行 现 在 以 一 个 “> ”作为 最 左 的 非 “=” 符 号 。 这 样 的 依赖 是 非法 的 ， 反 映 上 面 所 
描述 的 变换 是 非法 的 。 


”定理 5.2 ”对 紧 嵌 循环 的 置换 是 合法 的 ， 当 且 仅 当 其 方向 矩阵 在 对 各 列 作 相同 的 
置换 后 不 含 以 “> ”方向 作为 最 左 非 “=” 方 向 的 行 。 


定理 5.2 可 以 直接 由 定理 5.1 和 定理 2.3 得 出 。 它 提供 一 种 测试 循环 交换 安全 性 的 简单 有 效 
的 方法 一 一 构造 循环 供 套 中 所 有 依赖 的 方向 向 量 ， 组 成 一 个 方向 矩阵 ， 并 对 该 矩阵 作 相应 的 
置换 ， 看 是 否 产生 非法 的 方向 矩阵 。 


5.2.2 循环 交换 的 有 利 性 
图 2-2 给 出 的 向 量化 算法 codeger 向 量化 所 有 徐 套 在 携带 最 内 层 依 赖 环 的 循环 以 内 的 循环 。 
循环 交换 必须 增加 在 这 个 依赖 环 以 内 和 的 循环 个 数 ， 才 能 使 该 算法 发 现 更 多 的 向 量化 。 换 名 话 
说 ,循环 交换 必须 改变 它 所 作用 的 循环 修 套 的 依赖 模式 才能 有 效 。 
定理 5$.2 告 诉 我 们 ， 一 个 特定 循环 交换 对 循环 嵌 套 内 依赖 关系 的 影响 可 以 通过 改变 方向 矩 
阵 而 看 到 ; 换 名 话说， 所 得 到 的 依赖 模式 可 以 不 需要 修改 程序 本 身 就 能 确定 。 因 此 ， 为 了 确定 
循环 交换 的 有 利 性 ， 我 们 可 以 分 析 可 能 有 利 的 循环 置换 并 置换 方向 矩阵 以 检查 它们 是 否 合法 。 
目标 机 器 的 体系 结构 通常 是 确定 最 有 利 的 循环 交换 模式 的 主要 因素 。 因 此 ， 正 确 的 循环 
嵌 套 不 能 以 机 器 无 关 的 方式 确定 。 为 了 说 明 最 佳 循 环 交 换 模 式 如 何 随 目 标 体系 结构 而 变化 ， 
考虑 下 面 的 例子 : 
D01=1,N 
po J=1, M 
DOK=1,t 
S A(I+1,J+1,K) = A(I,J,K) +B 
ENDDO 


ENDDO 
ENDDO 
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内 层 的 两 个 循环 将 被 向 量化 (依赖 由 外 层 循 环 携 带 )。 结 果 产 生 Fortran 90 代 码 
D0 I = 1，N 
s A(1+1,2:M+1,1:L) = A(1,1:M,1:L) + B 
ENDDO 
这 样 的 代码 对 于 有 大 量 同步 的 功能 部 件 的 SIMD 机 器 (例如 Connection Machine) 来 说 可 
能 是 有 效 的 ， 但 是 对 于 向 量 寄存 器 机 器 来 说 就 不 是 最 有 效 的 。 这 是 因为 向 量 寄存 器 数量 通常 
比 单个 循环 的 迭代 次 数 少 ， 因 此 向 量化 多 个 循环 产生 很 少 的 附加 益处 。 而 另 一 方面 ， 选 择 适 
当 的 内 存 访 问 模 式 对 于 这 些 机 器 来 说 芭 有 很 大 的 影响 。 
在 大 多 数 向 量 机 上 ， 最 好 向 量化 那些 内 存 访问 跨 距 为 1 的 循环 ， 因 为 存储 器 技术 在 传送 连 
续 的 数据 块 时 效率 最 高 。 由 于 Fortran 是 按 列 存储 数组 的 (最 左边 一 维 的 内 存 访问 是 连续 的 )， 
这 就 是 说 最 好 向 量化 第 一 维 一 一 当前 这 个 例子 里 的 1- 循环 。 如 果 I- 循 环 被 移动 到 最 内 层 而 另 
外 两 个 循环 的 相对 顺序 保持 不 变 , 得 到 的 方向 向 量 就 是 (<,=,<)。 这样 1- 循 环 不 携带 任何 依赖 ， 
codegen 对 其 向 量化 产生 
DOJ=1,M 
D0 K = 1，L 
S A(2:N+1,J+1,K) = A(1:N,J,K) +B 
ENDDO 
ENDDO 
如 果 目 标 机 是 一 个 有 向 量 执行 单元 的 MIMD 并 行 机 ， 那 么 这 个 循环 顺序 虽然 很 好 ， 但 并 
非 最 佳 选择 。I- 循 环 仍然 是 最 佳 的 向 量化 循环 (选择 ) ， 但 是 K- 循 环 作为 剩 下 的 惟一 可 被 并 行 
执行 的 循环 ， 却 不 在 最 优 的 位 置 上 。 如 果 它 被 移动 到 最 外 层 ， 生 成 方向 向 量 (=,<,<)， 它 将 可 
并 行 执 行 并 将 同步 代价 减少 到 原来 的 1MH。 结 果 代码 为 
PARALLEL DO K = 1, L 
DO J=1, M 
A(2:N+1,J+1,K) = A(1:N,J,K) + B 
ENDDO 
END PARALLEL DO 


这 些 例子 显示 方向 矩阵 可 以 用 于 决定 对 某 种 特定 目标 机 而 言 最 好 的 循环 置换 。 然 而 ， 穷 
举 所 有 的 变换 不 是 最 有 效 的 办 法 ; 最 好 是 先 预测 对 给 定 目标 机 的 最 佳 ( 循 环 ) 顺序 ， 然 后 用 
方向 矩阵 来 确认 该 顺序 的 安全 性 。 这 样 一 种 “预测 的 方法 ”被 证 明 不 仅 对 于 循环 交换 有 利 ， 
而 且 对 其 他 变换 也 是 有 好 处 的 。 下 面 一 节 将 讲述 如 何 把 循环 交换 合并 到 codegen 算 法 中 并 针对 
向 量 机 作 性 能 微调 。 


5.2.3 循环 交换 和 向 量化 

对 于 向 量化 ， 从 一 个 简单 的 观察 可 以 得 出 一 个 有 效 和 实用 的 循环 交换 策略 。 这 个 观察 是 
这 样 的 : 一 个 不 携带 依赖 的 循环 不 会 携带 任何 会 阻止 它 和 优 套 在 其 中 的 其 他 循环 进行 循环 交 
换 的 依赖 。 并 且 ， 这 样 一 个 循环 不 可 能 携带 任何 交换 敏感 的 依赖 。 没 有 阻止 交换 的 依赖 意味 
着 将 该 循环 移动 到 更 深 的 嵌 套 层次 总 是 合法 的 。 在 原来 的 层次 上 无 依赖 保证 该 循环 在 新 的 、 


更 深 的 嵌 套 层次 上 也 不 会 携带 任何 依赖 。 因 此 ， 向 内 移动 的 过 程 可 以 持续 进行 直到 该 循环 被 


移 到 最 内 县， 并 且 在 那里 该 循环 也 不 会 携带 任何 依赖 。 因 为 一 个 无 依赖 的 循环 也 是 一 个 无 依 
赖 环 的 循环 ， 而 且 向 量化 的 目标 是 得 到 无 依赖 环 的 内 层 循环 ， 这 个 交换 方法 对 于 向 量化 算法 
来 说 是 理想 的 。 以 下 的 定理 更 形式 化 地 陈述 这 些 观 察 。 
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定理 5.3 ”在 一 个 紧 嵌 循环 中 ， 如 果 从 第 ; 层 到 第 ;+z 层 的 循环 不 携带 依赖 〈《 也 就 
是 说 ， 所 有 的 依赖 关系 由 层 号 小 于 i 或 者 大 于 i+n 的 循环 携带 )， 则 将 这 些 循环 移动 到 
第 ;i++2+1 层 循环 之 内 总 是 合法 的 。 并 且 ， 这 些 循环 在 它们 的 新 位 置 上 也 不 携带 任何 
依赖 。 

证 明 为 了 证 明定 理 的 正确 性 我 们 考虑 两 种 情况 。 首 先 ， 如 果 依赖 由 外 层 循环 扒 
带 ， 如 下 面 方向 矩阵 中 的 头 两 行 所 示 ， 那 么 不 管 对 内 层 的 列 做 何 种 置换 ， 相 应 的 变 
换 总 是 合法 的 ， 因 为 最 外 层 的 “<” 将 保证 依赖 的 源 语句 在 汇 语句 之 前 执行 。 





另 一 方面 ， 如 果 依 赖 由 内 层 循环 携带 ， 如 图 中 最 后 两 行 所 示 ， 那 么 对 应 于 i 到 i+ n 层 
的 列 只 能 包含 为 “=” 方 向 的 项 ， 因 为 最 外 层 的 非 “=” 的 项 位 于 大 于 i+n 的 层 。 同 
样 地 ， 这 些 循 环 可 以 被 移 到 内 层 ， 而 依赖 的 携带 循环 保持 不 变 。 


定理 5.3 为 把 一 组 循环 移动 到 最 内 层 提供 理论 基础 。 这 种 循环 交换 基本 上 是 把 一 组 循环 
“移动 ”到 另 一 个 循环 内 ， 因 此 称 为 循环 移动 。 关 于 怎样 把 这 个 结果 用 于 执行 循环 交换 ， 下 面 
常见 的 矩阵 乘法 编码 给 出 一 个 极 好 的 例子 : 
DOI=1,N 
DOJ=1,N 
DOK =1,N 
s A(I,I) = A(1,J) + B(I,K) * C(K,J) 
ENDDO 
ENDDO 
ENDDO 
语句 S 有 到 其 自身 的 真 依赖 、 反 依赖 和 输出 依赖 、 它 们 都 由 K- 循 环 携带 且 其 方向 向 量 均 为 
(=,=,<)。 如 果 将 codegen 直 接应 用 于 以 上 循环 嵌 套 ， 将 不 会 产生 任何 向 量化 语句 ， 因 为 最 内 
层 循 环 有 依赖 环 。 在 从 最 外 层 循环 开始 的 每 一 级 ， 递 归 的 代码 生成 器 会 发 现 当前 的 层 携带 一 
个 依赖 环 ， 这 样 就 只 能 生成 一 个 串 行 的 00 循 环 ， 尽 管 外 层 的 两 个 循环 没有 携带 任何 依赖 。 
然而 ， 基 于 本 节 开 始 时 的 观察 ， 很 容易 发 现 因为 最 外 层 的 依赖 由 第 3 层 携带 ， 而 循环 1 和 2 
不 携带 依赖 ， 可 以 被 移动 到 循环 3 以 内 并 且 仍 然 不 携带 依赖 。 这 样 得 到 循环 伐 套 
DOK =1,N 
DOI=1,N 
DOJ=1,N 
S A(I,J) = A(I,J) + B(I,K) * C(K,J) 
ENDDO 
ENDDO 
ENDDO 
具有 方向 向 量 (<,=,=)。 当 codegen 用 于 这 个 循环 伐 套 时 ， 它 会 发 现 内 层 的 两 个 循环 既 没 有 依 
赖 也 没有 依赖 环 ， 因 此 可 以 在 两 维 上 被 向 量化 : 
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00 K=1, N 
FORALL (J=1,N) 
AC1:N,J) = A(1:N,J) + BCL:N,K) * C(K,d) 
END FORALL 
ENDDO 


为 清楚 起 见 这 里 使 用 FORALL 循 环 。 虽然 二 维 向 量 语句 可 以 写成 Fortran 90 语 句 而 不 使 用 
FORALL 结 构 ， 但 是 得 到 的 代码 却 很 难 理解 。 

这 个 观察 可 以 通过 一 个 简单 的 方法 合并 到 图 2-2 的 算法 codegen 中 一 一 把 携带 依赖 的 最 外 层 
遗留 循环 移动 到 k 层 ， 然 后 为 其 生成 串 行 执行 的 循环 ， 而 不 是 为 k 层 的 循环 生成 一 个 串 行 00 循 
环 。 根 据 定理 5.3 这 总 是 合法 的 。 在 下 一 节 我 们 将 给 出 codegen 的 一 个 修改 版 本 ， 在 其 中 把 这 一 
修改 合并 到 一 个 更 通用 的 框架 里 。 


一 个 代码 生成 框架 
图 5-2 给 出 一 个 包含 循环 移动 和 打破 依赖 环 的 通用 并 行 代码 生成 算法 。 在 本 章 其 余 大 部 分 
地 方 ， 它 将 被 用 作 代码 生成 的 框架 。 


procedure codegen(R, k, D) 
1/ R 是 代码 必须 生成 的 区 域 
/1 是 可 能 的 并 行 循环 最 小 嵌 套 层次 
/ D 是 R 中 语句 的 依赖 图 
在 R 的 依赖 图 D 中 找到 最 大 强 连通 分 量 集 合 [51, So, … $m] (使 用 Tarjan 算 法 ) 
通过 把 每 个 5 约 简 为 一 个 节点 ， 从 R 构 造 出 R:， 相 应 屯 从 D 构 造 DD 
ELT, Me, .…, ro] 为 Re 中 对 应 于 D 的 m 个 顺序 排列 的 节点 (按照 拓扑 排序 进行 排列 ) 
for i=1 to m do 
证 Nw 是 带 坏 的 then 
fk 是 元 中 最 深 的 循环 
then try_recurrence_breaking(n,, D, k); 


else begin 


select_loop_and_interchange(n,, D, k), 

生成 一 个 k 层 的 DO 语句 ; 

令 D,; 为 包含 D 中 所 有 在 k++1 层 或 大 于 Kk 十 1 层 并 且 在 zt 内 部 的 边 的 依赖 图 ; 
codegen(n;, k+ 1, Dj); 

生成 x 层 的 ENDDO 语 句 ; 


end 
else 
ANTE P(N) —k+ 1 维 上 生成 一 个 向 量 语句 ， 这 里 p(r) 是 所 包含 的 循环 个 数 ; 


end codegen 





图 5-2 带 循 环 选 择 和 打破 依赖 环 的 代码 生成 框架 


这 个 版 本 与 原来 相 比 有 两 处 改变 。 首 先 ， 如 果 一 个 区 域 是 有 环 的 ， 就 用 一 个 测试 检查 这 
是 不 是 嵌 套 的 最 内 层 循环 。 如 果 是 最 内 层 循环 ， 那 么 就 试图 打破 依赖 环 。 否则， 就 尝试 由 例 
程 Select_loop_and_interchange 选 择 一 个 循环 进行 串 行 化 。 回 忆 在 原来 的 算法 中 ， 总 是 选择 一 
BPE RAID. 然而， 在 当前 版 本 中 ， 我 们 可 以 使 用 图 5-3 中 的 过 程 实现 循环 移 
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动 的 启发 式 方法 。 这 个 过 程 对 于 本 节 前 边 给 出 的 例子 ， 能 够 得 到 我 们 想 要 的 结果 。 

通用 的 循环 选择 和 交换 

实际 上 ， 图 5-3 给 出 的 循环 移动 算法 是 十 分 有 效 的 。 它 不 仅 很 容易 实现 ， 通常 只 需要 很 少 
的 代码 ， 并 且 也 能 采用 最 常见 的 下 标 编码 形式 得 到 最 好 的 代码 。 不 过 ， 这 个 算法 并 不 是 完 
的 。 比 如 在 下 面 的 例子 中 ， 它 有 可 能 错过 向 量化 的 机 会 : 


procedure select_loop_and_interchange(n,, D, k) 
if AR HEE BRE ep > K 上 ，then 
EEk, k+1, pp - 1 EHRE- RRA; 


使 得 它 在 k- 屋 人 循 坏 上 ; 
return; 
end select_loop_and_interchange 





图 5-3 实现 简单 循环 移动 交换 的 循环 选择 


DO I=1,N 
DO J=1, M 
S A(I+1,J+1) = A(I,J) + A(I+1,J) 
ENDDO 
ENDDO 


在 这 个 例子 中 ，S$ 有 两 个 对 自身 的 真 依赖 ， 方 向 矩阵 为 


因为 两 个 循环 都 携带 依赖 ， 所 以 循环 移动 算法 将 无 法 发 现任 何 向 量 循环 。 然 而 ， 对 方向 矩阵 
的 简单 检查 显示 ， 交 换 这 两 个 循环 可 以 使 得 交换 后 的 内 层 循环 不 携带 依赖 ， 从 而 允许 它 被 向 
量化 。 得 到 向 量 代码 如 下 : 

DOJ=1,M 

A(2:N+1,J+1) = A(1:N,J) + A(2:N+1,9) 

ENDDO 

并 且 ， 这 个 向 量 循环 有 连续 的 内 存 访 问 ， 其 好 处 前 面 已 讨论 过 。 鉴 于 在 循环 交换 且 向 量 
化 的 版 本 和 无 循环 交换 也 无 向 量化 的 版 本 之 间 执 行 时 间 的 差别 ， 对 codegen 进 行 修改 以 处 理 这 
样 的 情况 是 非常 有 益 的 。 

像 前 边 提 到 的 ， 一 个 显然 但 不 一 定 高 效 的 处 理 任意 循环 交换 的 方法 ， 是 检查 方向 矩阵 的 
所 有 合法 的 置换 以 得 到 最 优 形式 ， 然 后 生成 对 应 于 置换 的 循环 顺序 。 这 个 方法 会 在 后 面 所 有 
变换 的 完整 的 上 下 文 都 有 时 再 重新 考虑 。 对 于 向 量化 而 言 ， 所 和 希望 的 结果 是 得 到 一 个 算法 ， 
比 循环 移动 获得 更 多 向 量化 ， 但 是 比 检查 所 有 置换 的 工作 量 小 。 

做 这 件 事 情 的 一 个 一 般 的 方案 是 用 通用 的 循环 选择 替换 图 5-3 中 的 循环 移动 代码 : 选择 一 
个 在 p >k 层 上 的 循环 ， 它 可 以 被 安全 地 移动 到 层次 k， 并 将 k, K+1,.…, p -1 层 上 的 循环 移动 到 
它 的 内 部 。 为 了 使 这 个 策略 有 效 ， 需 要 有 选择 在 p 层 的 循环 的 理由 。 特 别 是 ， 它 至 少 要 携带 一 
个 依赖 。 

除了 循环 选择 以 外 ， 也 尝试 了 很 多 不 同 的 启发 式 方法 。 在 本 节 中 ， 我 们 将 讨论 一 种 略 好 
于 循环 移动 的 借助 于 检查 方向 矩阵 的 启发 式 方法 。 其 基本 策略 如 下 : 
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(1) 如 果 k 层 循环 不 携带 依赖 ， 那 么 令 P 层 为 携带 依赖 的 最 外 层 循 环 。( 这 种 情况 下 与 循环 
移动 的 启发 式 方法 效果 相同 。) 

(2) 如 果 k 层 循环 携带 依赖 ， 那 么 令 p 是 可 以 被 向 外 移动 到 k 层 的 最 外 层 循 环 ， 并 且 它 携带 
一 个 依赖 4， 其 方向 向 量 在 除了 第 p 个 分 量 以 外 的 其 他 位 置 上 都 是 “=”。 如 果 没 有 这 样 的 循环 
存在 ， 就 令 p =k. 

这 个 启发 式 方法 的 优越 性 在 于 它 可 以 串 行 化 任何 必须 被 串 行 执行 的 循环 ， 因 为 它 携 带 一 
个 串 行 执行 其 他 循环 所 无 法 满足 的 依赖 。 这 样 它 就 可 以 正确 地 处 理 前 边 简单 的 循环 移动 失败 
的 例子 。 图 5-4 给 出 实现 这 个 更 复杂 的 启发 式 方法 的 代码 。 


procedure select_loop_and_interchange(R, k) 
11 kÆ TEL RR ES 4 BTR E RK 
/ 当 仅 考虑 在 k 层 和 更 深层 次 的 循环 时 ，R 是 强 连通 的 
LENA TRI BRIAR 
设 p 是 携带 依赖 的 最 外 层次 
if p=k then begin 
not_found = true; 
while (not_found and p < N) do 


并 p- 层 循 坏 可 以 被 安全 地 向 外 移动 到 Kk 层 and 
存在 一 个 循环 携带 的 依赖 4， 它 的 方向 向 量 在 除了 p 以 外 的 位 置 上 都 是 “=” 
then not found : = false; 


else p:=p+1; 
end 
if p >N then p =k; 
end 
if p >k then 把 在 k,k 十 1,.…,p 一 1 层 的 循环 移动 到 p- 层 循环 以 内 ; 


end select_loop_and_interchange 





图 5-4 循环 选择 启发 式 方法 
在 充分 探讨 循环 交换 在 向 量化 中 的 应 用 后 ， 我 们 现在 转向 codegen 中 的 依赖 环 打破 。 


5.3 标量 扩展 
如 5.1 节 的 矩阵 乘法 原来 的 编码 显示 ，Fortran 77 程 序 在 涉及 数组 和 向 量 的 计算 时 经 常 使 用 
标量 临时 变量 。 一 个 典型 的 例子 是 下 面 代码 段 ， 其 中 交换 两 个 向 量 的 元 素 : 
DOI=1,N 
Sı T = ACI) 
Sz A(I) = B(I) 
S; B(I) =T 
ENDDO 
图 5-5 中 的 这 个 循环 的 依赖 图 显示 ， 这 个 循环 在 此 形式 下 是 不 可 向 量化 的 。 
本 质 上 ， 向 量 交 换 必 须 读 一 个 数组 的 元 素 然后 再 重 写 相同 的 元 素 。 因 此 ， 由 数组 A 和 8B 导 
致 的 循环 无 关 反 依赖 (S$; öz) SAS öz! S) 无 法 消除 。 其 他 的 依赖 都 是 由 标量 T 引 起 的 。 由 于 
T 被 用 于 保存 原 存储 单元 将 被 重 写 的 值 ， 其 导致 的 循环 无 关 真 依赖 很 难 被 消除 或 者 改变 。 然而 ， 
其 他 的 标量 依赖 都 是 由 于 同样 的 存储 单元 在 不 同 的 循环 类 代 中 被 用 来 临时 存储 空间 而 引起 的 。 
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特别 是 ， 循 环 携带 的 真 依赖 S181S: 是 因为 2.2 节 给 出 的 依赖 定义 一 一 % 写 人 由 S$: 在 下 一 次 迭代 中 
读 出 的 存储 单元 一 一 的 部 涵 性 导致 的 。 如 果 每 个 迭代 使 用 一 个 不 间 的 单元 作为 临时 变量 ， 那 
么 这 些 依赖 就 不 复 存在 ， 从 而 得 到 图 5-6 所 示 的 可 以 向 量化 的 依赖 图 。 





图 5-5 向 量 交换 的 依赖 图 图 5-6 向 量 交换 修改 后 的 依赖 图 


为 了 变换 这 个 程序 使 其 对 应 于 这 个 循环 嵌 套 ， 对 标量 T 的 引用 必须 用 对 编译 器 生成 的 临时 
数组 T$ 的 引用 替换 ， 这 个 数组 对 每 个 迁 代 有 一 个 不 同 的 存储 单元 。 这 个 叫做 标量 扩展 的 变换 
产生 如 下 的 代码 : 

DOI=1,N 

S; T$(I) = ACI) 

Sz ACI) = B(I) 

S; B(I) = T$(1) 

ENDDO 
T = T$(N) 
在 循环 之 后 对 T 的 赋值 捕获 在 循环 中 计算 出 的 T$ 的 最 后 的 值 。 将 过 程 codesgen 应 用 于 该 循环 得 到 

Sı T$C1:N) = A(1:N) 

S: AC1:N) = B(1:N) 

S B(1:N) = T$(1:N) 

T = T$(N) 

在 6.2.1 节 ， 我 们 将 讨论 一 种 略 有 不 同 的 方法 一 一 私有 化 ， 它 通过 声明 存储 单元 T 对 于 并 行 
循环 的 各 迭代 是 私有 的 来 得 到 相同 的 结果 。 但 不 管 是 标量 扩展 还 是 标量 私有 化 都 不 是 没有 代 
价 的 ， 因 为 这 需要 额外 的 存储 和 更 复杂 的 寻 址 方式 。 因 此 ， 除 非 可 以 增加 向 量化 或 者 并 行 性 ， 
否则 不 应 该 使 用 这 两 个 变换 。 

为 了 说 明 标 量 扩展 〈 像 向 量化 ) 并 不 总 是 有 利 的 ， 考 虑 下 面 的 代码 段 ， 这 是 在 有 限 差分 
计算 中 常会 遇 到 的 典型 的 循环 : 

DO I=1,N 

T=T + ACI) + ACI41) 
A(I) =T 

ENDDO 
由 于 在 第 一 次 赋值 给 T 之 前 有 一 个 对 T 的 使 用 ， 标 量 扩展 算法 必须 小 心地 插入 初始 化 代码 (和 
前 边 例子 中 的 结束 代码 对 称 )。 正 确 地 进行 扩展 后 的 代码 如 下 : 

T$(0) =T 
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DOI=1,N 
Sı T$(1) = TS(I-1) + ACI) + A(I+1) 
Sz ACI) = T$(1) 

ENDDO 

T = TS(N) 
图 5-7 给 出 这 个 代码 段 的 依赖 图 。 我 们 看 到 ， 即 使 进行 标量 扩展 ， 也 不 可 能 进行 任何 向 


量化 。 

从 这 两 个 例子 读者 容易 看 出 标量 扩展 总 是 安全 的 。 我 
们 将 要 描述 的 扩展 的 实际 过 程 简单 且 有 些 乏 味 ， 可 以 用 于 
任何 循环 嵌 套 。 可 是 ， 如 我 们 所 看 到 的 ， 标 量 扩展 并 不 总 
是 有 利 的 ， 而 主要 的 挑战 在 于 确定 什么 时 候 值得 付出 扩展 
所 付出 的 代价 。 

一 个 显然 的 办 法 是 扩展 所 有 的 标量 ， 生 成 最 优 的 向 量 图 5-7 扩展 无 利 的 依赖 图 
化 ， 然 后 收缩 所 有 不 必要 扩展 的 标量 。 虽 然 这 个 方法 是 可 
行 的 ， 但 是 更 好 的 做 法 是 确定 什么 时 候 变 换 肯 定 是 有 利 的 ， 由 此 避免 不 必要 的 扩展 、 测 试 和 
收缩 标量 的 工作 。 和 循环 交换 的 情形 一 样 ， 在 实际 变换 程序 之 前 ， 我 们 将 党 试 预测 标量 扩展 
在 依赖 图 上 的 效果 。 这 样 ， 在 进行 代价 高 昂 的 修改 循环 的 过 程 之 前 即 可 计算 出 获 益 ， 可 以 省 
掉 不 必要 的 变换 的 恢复 工作 。 

一 个 确定 标量 扩展 在 依赖 上 的 效果 的 方法 可 由 这 一 节 开 始 的 观察 直接 得 到 。 某 些 依赖 由 
对 内 存单 元 的 重用 引起 ， 另 外 一 些 则 由 对 值 的 重用 引起 。 由 对 值 的 重用 引起 的 依赖 必须 被 保 
持 ， 因 为 任何 删除 这 样 一 个 依赖 的 变换 都 会 导致 计算 结果 发 生变 化 。 另 一 方面 ， 由 对 内 存单 
元 的 重用 引起 的 依赖 可 以 通过 扩展 相应 的 标量 删除 。 如 果 一 些 边 可 以 预先 确定 通过 标量 扩展 
是 可 删除 的 ， 那 么 就 可 以 通过 如 下 方式 进行 标量 扩展 : 删除 可 删除 的 依赖 边 ， 计 算 新 的 依赖 
图 中 的 强 连 通 区 域 ， 只 要 新 的 依赖 图 中 有 可 以 向 量化 的 语句 才 作 标量 扩展 。 

确定 可 删除 的 依赖 边 的 一 个 关键 概念 由 下 面 的 定义 引入 。 


定义 5.4 ” 某 个 标量 5 的 定 值 X 对 循环 L 是 一 个 疲 盖 定 值 ， 如 果 5 在 循环 L 开 始 处 的 某 
个 定 值 不 能 到 达 出 现在 X 之 后 的 任何 使 用 。 如 果 在 循环 中 有 多 个 覆盖 定 值 ， 那 么 “ 窗 
盖 定 值 ”一 词 指 的 是 最 早 的 那个 定 值 。 


FEF ROCESS. TH SE EE: 
DO I = 1, 100 
Si T = X(I) 
S: Y(I)=T 
ENDDO 
任何 置 于 循环 开始 处 T 的 定 值 将 立即 被 S: 注 销 。 因 此 不 可 能 到 达 在 S: 的 引用 。 
类 似 地 ，S$i 在 下 面 的 例子 中 也 是 一 个 覆盖 定 值 : 
DO I = 1, 100 
IF (A(I) .GT. 0) THEN 
S: T = X(I) 
Sz Y(I) =T 
ENDIF 
ENDDO 


ô 








即使 对 T 的 赋值 可 能 不 是 在 循环 的 每 次 迭代 都 执行 ， 但 是 它 在 每 次 引用 T 的 选 代 都 会 执行 。 因 
此 ， 任 何在 循环 开始 的 定 值 都 不 能 到 达 S: 之 后 的 引用 。 
覆盖 定 值 并 不 一 定 总 是 存在 : 


DO I = 1, 100 
IF (ACI) .GT. 0) THEN 
Sı T = X(I) 
ENDIF 
Sz Y(I) = T 


ENDDO 
由 于 $: 是 无 条 件 执行 而 3: 是 条 件 执行 的 ， 一 个 在 循环 开始 处 的 定 值 总 是 有 机 会 到 达 S:。 因 此 ， 
T 没 有 覆盖 定 值 。 用 4.4.4 节 讨论 过 的 静态 单 赋值 形式 来 表述 即 为 ， 如 果 从 T 的 第 一 个 赋值 出 发 
的 边 稍 后 到 达 循 环 中 的 一 个 函数 ， 该 函数 将 T 的 该 值 与 其 在 另外 一 条 通过 循环 的 控制 流 路 径 
中 所 得 的 值 合并 ， 那 么 变量 T 就 没有 覆盖 定 值 。 

为 标量 扩展 的 目的 ， 考 虑 覆盖 定 值 的 一 种 更 一 般 的 解释 是 有 用 的 ， 即 将 其 扩展 为 在 循环 
的 不 同 路 径 上 一 组 定 值 。 如 果 在 一 个 给 定 的 循环 中 下 面 的 两 个 条 件 之 一 成 立 ， 我 们 就 说 在 该 
循环 中 存在 一 个 T 的 覆盖 定 值 的 集合 C: (1) 在 循环 的 开始 不 存在 合并 循环 外 和 循环 内 T 的 不 同 
版 本 定 值 的 $9 函数; (2) 循环 内 的 $ 国 数 不 存 在 到 任何 函数 (包括 它 本 身 ) 的 SSA 边 。 下面 
是 一 个 这 样 的 循环 的 例子 : 


DO I= 1, 100 
IF (ACI) .GT. 0) THEN 
S; T = X(I) 
ELSE 
S: T = -X(I) 
ENDIF 
S; Y(I) = T 


ENDDO 
这 里 S: 和 5$: 形 成 一 个 覆盖 定 值 的 集合 ， 因 为 在 循环 的 开始 处 不 需要 $ 国 数 ， 虽 然 在 语句 S: 之 前 
需要 一 个 中 国 数 。 
按照 这 个 扩展 的 定义 ， 任 何 包 含 一 个 T 的 定 值 的 单个 循环 都 可 以 按 下 面 的 SSA 图 上 的 过 程 ， 
通过 在 T 未 被 覆盖 定 值 的 路 径 插 入 哑 赋 值 而 转换 成 有 一 个 覆盖 定 值 集合 的 循环 ， 该 过 程 同时 计 
算出 该 覆盖 定 值 的 集合 C。 
(1) 令 5o 是 T 在 循环 开始 处 的 函数 ， 如 果 没 有 这 样 一 个 函数 则 为 空 。 令 [为 空 并 初始 化 一 
个 空 栈 。 
(2) 令 51 是 T 在 循环 中 的 第 一 个 定 值 。 把 $1 加 入 到 C 中 。 
(3) 如 果 S$; 的 SSA 后 继 是 一 个 不 等 于 So 的 9 函数 $:， 那 么 把 S: 压 人 栈 中 并 作 标 记 。 
(4) 当 栈 非 空 时 : 
a) RFP SH ARS; 
b) 把 所 有 不 是 函数 的 SSA 前 驱 加 入 到 C 中 ; 
c) 如 果 存 在 一 个 从 56 到 S$ 的 SSA 边 ， 则 沿 该 边 桂 入 赋值 T=T 作 为 最 后 一 条 语句 ， 并 把 它 
IMA BIC HH 
d) 对 于 每 个 是 $ 的 SSA 前 驱 且 未 被 标记 的 $ 国 数 S: ( 除 So 以 外 ) ， 标 记 S: 并 且 把 它 压 和 人 
到 栈 中 ; - 
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e) TENTE 条 SSA 边 到 达 且 在 控制 流 图 中 不 是 由 5 控制 的 未 标记 的 函数 

， 标 记 S$ 并 把 它 压 人 到 栈 中 。 
i EABUNRERIM TRE ”个 4 因数 的 并 行路 会， 直到 投 丰 到 为 止 。 然而 ， 在 
BR (4) e) 中 ， 它 避免 把 被 当前 函数 控制 的 9 函数 压 入 栈 中 ， 因 为 不 存在 到 这 样 一 个 节点 


的 未 经 考虑 的 路 径 。 
当 这 一 过 程 被 应 用 到 前 面 没 有 覆盖 定 值 的 循环 时 ， 将 产生 如 下 代码 段 : 
DO I = 1，100 


IF (ACI) .GT. 0) THEN 
Sy T= X(1) 
ELSE 
Sz T=T 
ENDIF 
SWE) =T 
ENDDO 
覆盖 定 值 是 很 重要 的 ， 因 为 它们 决定 标量 被 扩展 的 方式 并 因此 而 决定 哪些 边 是 可 删除 的 。 
下 面 是 一 个 在 正规 化 的 循环 中 对 T 作 标量 扩展 的 过 程 ， 假 定 覆 盖 定 值 被 确定 。 
(1) 创建 一 个 适当 长 度 的 数组 T$。 
(2) 对 覆盖 定 值 集合 C 里 的 每 个 ;， 把 语句 左 部 的 T 赫 换 为 T$(1)。 
(3) 对 T 的 其 他 定 值 以 及 循环 体 中 可 以 经 SSA 边 到 达 而 不 越过 5。( 在 循环 开始 处 的 函数 ) 
的 T 的 每 个 使 用 ， 用 T$(I) 赫 换 T。 
[190] (4) 对 于 在 覆盖 定 值 前 的 每 个 使 用 (SSA 图 中 So 的 直接 后 继 ) ， 用 T$(I-1) 替 换 T。 
(5) 如 果 5, 不 为 空 ， 那 么 在 循环 前 插入 T$(0)=T。 
(6) 如 果 存 在 一 条 循环 内 的 定 值 到 循环 外 的 使 用 的 SSA 边 ， 则 在 循环 之 后 插入 T=T$(U)， 


这 里 是 循环 的 上 界 。 
本 章 前 面 的 例子 说 明了 有 和 覆盖 定 值 的 表达 式 将 如 何 被 扩展 。 下 面 是 前 面 循环 的 一 个 扩展 ， 
前 面 的 循环 原来 是 没有 覆盖 定 值 的 : 
DO I =1, 100 


IF (ACI) .GT. 0) THEN 
Si T$(1) = X(T) 
ELSE 
T$(1) = T$(I-1) 
ENDIF 
S: Y(I) = T$(1) 
ENDDO 


有 了 覆盖 定 值 的 定义 ， 我 们 现在 可 以 确定 所 有 可 删除 的 依赖 了 。 


定理 5.4 ”如 果 一 个 标量 T 在 覆盖 定 值 的 任 一 成 员 之 前 的 所 有 使 用 都 被 扩展 为 
T$(I-1) ， 而 所 有 其 他 引用 和 定 值 都 被 扩展 为 T$(I)， 那 么 用 标量 扩展 后 将 被 删除 的 
bE O) 后 向 携带 的 反 依赖 ，(2) 所 有 循环 携带 的 输出 依赖 (3) 在 覆盖 定 值 之 前 
的 循环 无 关 反 依赖 ，(4) 元 余 的 前 向 携带 真 依赖 。 


为 证 明 这 一 结论 ， 下 面 逐 个 考查 每 一 类 依赖 : 
(1) 后 向 撞 带 的 反 依赖 : 获 盖 定 值 集合 的 每 个 成 员 在 循环 体内 都 是 向 上 暴露 的 ; AB 
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带 的 反 依 赖 必 须 以 这 些 覆盖 定 值 之 一 或 者 某 个 后 面 的 定 值 作为 目标 。 类 似 地 ， 由 于 反 依 赖 是 
反 向 的 ， 其 源 也 在 覆盖 定 值 之 后 出 现 。 这 样 两 端点 的 引用 都 被 扩展 成 T$(I)， 但 是 由 于 每 个 揭 
代 使 用 一 个 不 同 的 存储 单元 ， 两 端点 引用 的 是 数组 内 不 同 的 单元 ， 从 而 消除 依赖 。 

(2) 后 向 携带 的 输出 依赖 : 这 种 情况 只 需 对 前 边 的 论证 做 一 点 小 的 修改 。 

(3) 前 向 携带 的 输出 依赖 : 由 于 所 有 定 值 都 出 现在 一 个 或 多 个 覆盖 定 值 之 后 ， 所 有 定 值 都 
被 扩展 为 T$(I) ， 从 而 消除 跨越 循环 迭代 的 重用 。 注 意 这 种 情况 包括 覆盖 定 值 中 的 自 输出 依赖 。 

(4) 到 杉 盖 定 值 的 循环 无 关 反 依赖 : 在 覆盖 定 值 之 前 的 引用 将 被 扩展 为 T$(I-1); 覆盖 定 
值 将 被 扩展 为 T$(I)。 由 于 引用 不 再 出 现在 相同 的 迭代 中 ， 所 以 循环 无 关 反 依赖 被 消除 。 

(5) 从 一 盖 定 值 到 一 盖 定 值 后 的 使 用 的 循环 携带 真 依赖 : 覆盖 定 值 注销 任何 迭代 间 的 值 
的 传递 。 

为 了 更 具体 地 说 明 这 些 原则 ， 再 次 考虑 图 5-6 给 出 的 向 量 交 换 的 依赖 图 。 在 图 5-8 中 ,依赖 
图 中 可 删除 的 边 以 Ds 标明 。 边 D1 是 后 向 携带 的 反 依赖 ， 根 据 第 1 种 情况 是 可 删除 的 。 边 Ds 是 前 
向 携带 的 输出 依赖 ， 根 据 第 3 种 情况 是 可 删除 的 。 边 Ds 是 一 个 前 向 携带 的 真 依赖 ， 根 据 第 5 种 
情况 可 以 删除 。 

第 4 条 原则 从 前 边 的 例子 来 看 不 是 很 直观 ， 但 是 一 个 新 的 例子 可 以 清楚 地 说 明 这 一 点 : 

DO I = 1,100 
S1 ACI) = T 
Se T= B(I) + C(I) 
ENDDO 

图 5-9 是 这 段 代 码 的 依赖 图 ， 上 面 标 出 了 可 以 被 删除 的 边 。 边 中 是 一 个 前 向 循环 无 关 反 依 

赖 ， 根 据 情况 4， 它 可 被 消除 。 标 量 扩展 后 的 代码 是 


T$(0) =T 
DO I = 1，100 
Sı ACI) = T$(I-1) 
S2 T$(1) = B(I) + C(I) 
ENDD0 
T = T$(100) 


8° D: 








5, 





图 5-8 向 量 交换 中 的 可 删除 边 图 5-9 循环 无 关 的 可 删除 边 
这 里 反 依赖 消失 了 ， 因 为 存储 操作 总 是 在 使 用 的 前 一 个 选 代 。 通 过 语句 重 排序 ， 这 个 例 
子 实 际 上 可 以 被 向 量化 为 〈 正 像 变换 后 的 图 所 示 ) 


T$(0) =T 
S T$(1:100) = B(1:100) + €(1:100) 
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Sı A(1:100) = T$(0:99) 
T = T$(100) 

值得 注意 的 是 定理 5.4 仅 适用 于 标量 在 单个 循环 内 被 扩展 的 情形 。 它 可 以 扩展 为 允许 多 个 
循环 内 的 扩展 ， 但 是 这 一 过 程 非常 复杂 ， 且 带 来 的 好 处 也 远 小 于 最 初 在 单个 循环 内 的 扩展 。 

使 用 依赖 图 上 预测 标量 扩展 结果 的 能 力 ， 很 容易 把 codegen 修 改 为 扩展 标量 。 图 5-10 包 含 
try_recurrence_breaking 过 程 的 一 个 版 本 ， 它 由 图 5-2 给 出 的 代码 生成 框架 调用 。 值 得 注意 的 是 
在 “扩展 可 删除 依赖 边 指示 的 标量 ”这 一 步 ， 那 些 必 须 被 扩展 的 标量 只 是 那些 由 跨 人 或 跨 出 
一 个 向 量 r 抉 的 可 删除 依赖 边 指出 的 标量 。 


procedure try_recurrence_breaking(n;, D, k) 
这 k 是 中 最 深层 次 的 循环 then begin 
清除 元 中 可 删除 的 边 ; 
找到 依赖 图 D 中 仅 限于 zt 范围 内 的 最 大 强 连 遂 区 域 集合 [SC', SC), …, SC, 
证 在 SC 中 有 向 量 语句 then begin 


扩展 可 删除 边 指示 的 标量 
codegen (区 ,天 ,站 中 仅 限 于 mi 的 依赖 图 ) 


end 


end 
end try_recurrence_breaking 
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标量 扩展 的 一 个 明显 缺点 是 增加 程序 的 内 存 需求 。 如 果 不 小 心 处 理 ， 那 么 这 一 障碍 可 能 
会 消除 向 量化 和 并 行 化 所 带 来 的 好 处 。 幸 运 的 是 ， 有 一 些 技术 可 以 缓和 标量 扩展 所 带 来 的 存 
储 问题 。 其 中 之 一 是 只 在 单个 循环 中 扩展 标量 ， 以 最 小 的 代价 得 到 最 大 的 利益 。 在 多 个 循环 
内 扩展 会 急剧 增加 内 存 需 求 ， 但 是 性 能 方面 增加 的 好 处 却 很 小 。 第 二 种 技术 是 在 标量 扩展 前 
先进 行 循环 分 段 ， 并 仅 扩展 段 循 环 。 
例如 ， 对 程序 段 
DOI=1,N 
T= ACI) + ACI+1) 
ACI) = T + BCI) 
ENDDO 
针对 一 个 寄存 器 长 度 为 64 的 向 量 寄存 器 机 器 (假定 N 是 64 的 偶数 倍 ) 分 段 ， 生 成 如 下 代码 段 
DO I = 1, N, 64 
00 j = 0, 63 
T= AI+j) + A(I+j) 
A(I+j) = T + B(I+j) 
ENDDO 
ENDDO 
在 段 循环 中 扩展 更 容易 处 理 ， 此 时 得 到 
DO I = 1, N, 64 
DO j = 0, 63 
T$(j) = A(I+j) + A(I+j) 
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A(I+j) = T$(j) + B(I+j) 
ENDDO 

ENDDO 
这 时 临时 存储 的 大 小 较 小 且 在 编译 时 就 可 以 知道 。 并 且 ， 因 为 向 量 寄存 器 长 度 为 4， 可 以 把 
T$ 分 配 到 向 量 寄存 器 中 ， 而 不 需要 额外 的 内 存 。 本 质 上 ， 原 本 要 分 配 到 标量 寄存 器 的 标量 临 
时 存储 被 扩展 为 向 量 临时 存储 ， 并 被 分 配 到 向 量 寄存 器 。 

第 三 种 减少 对 存储 需求 的 技术 是 前 向 替换 。 回 到 前 边 的 例子 ， 男 一 个 请 除 任何 额外 存储 
(以 及 对 标量 扩展 的 需求 ) 的 方法 是 把 T 前 向 替换 到 它 的 惟一 的 引用 ， 产 生 


DOI=1,N 
A(T) = ACI) + A(I+1) + BCT) 
ENDDO 


在 这 个 例子 里 ， 前 向 替换 很 明显 是 一 个 较 好 的 方法 ， 因 为 临时 变量 仅 有 一 个 引用 。 然 而 ， 
一 般 说 来 ， 必 须 作 一 个 拆 中 : 当 临 时 存储 被 使 用 较 多 时 ， 必 须 比 较为 存放 扩展 的 标量 而 导致 
的 存储 的 代价 和 重新 计算 替换 的 表达 式 所 需 的 额外 计算 的 代价 。 这 种 起 换 很 容易 并 人 归纳 变 
量 替换 ( 见 4.5 节 )。 


5.4 标量 和 数组 重 命名 
标量 扩展 有 效 地 消除 一 些 由 对 内 存单 元 的 重用 而 导致 的 依赖 ， 即 使 是 以 多 用 内 存 为 代价 。 
实际 上 ， 对 内 存单 元 的 重用 尽管 减 小 了 程序 的 大 小 ， 但 是 也 导致 很 多 可 以 通过 使 用 额外 内 存 
消除 的 “人 为 ”依赖 。 以 下 代码 段 是 另 一 种 可 被 消除 的 标量 依赖 的 例子 。 
DO I = 1,100 
S; T= A(I) + B(I) 
S; C(I) =T+T 
S3 T = DCI) -8(1) 
Sa A(I+1)= T*T 
ENDDO 


如 果 依 赖 图 构造 得 不 够 精细 ， 那 么 就 可 能 出 现 依赖 $85,。 而 且 ， 即 使 是 一 个 较 精 细 的 构 
造 也 会 加 入 一 个 标量 扩展 无 法 消除 的 输出 依赖 $5.6%53， 虽 然 根 据 依赖 的 定义 ， 第 一 个 依赖 是 存 
在 的 ， 但 是 这 个 依赖 并 不 涉及 值 的 传递 ， 因 为 5 阻止; 的 输出 值 到 达 5:。 第 二 个 依赖 的 存在 只 
是 因为 内 存单 元 的 重用 。 第 二 个 依赖 表示 有 两 个 不 同 的 变量 恰好 存放 在 同一 个 内 存单 元 中 。 
如 果 它 们 被 放 到 不 同 的 内 存单 元 ， 如 像 
DOI = 1, 100 
Sı TL = A(T) + BCI) 
Se C(I) = T1+T1 
Sa 12 = D(1) - BCI) 
S4 ACI#1) = T2 * T2 
ENDDO 
T= T2 
则 那个 “人 为 ”依赖 就 消失 了 ， 使 循环 可 以 完全 向 量化 : 
Sa T2$(1:100) = D(1:100) - B (1:100) 
Sa A(2:101) = T2$(1:100) * T2$(1:100) 
Se T1$(1:100) = A(1:100) + B(1:100) 
S, (1:100) = T1$(1:100) +T1$(1:100) 
T = T2$(100) 
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为 了 看 出 是 标量 重 命名 而 非 标量 扩展 ， 使 得 可 以 进行 向 量化 ， 考 虑 下 面 标量 扩展 而 没有 


重 命名 的 代码 片段 : 
DO 1 = 1, 100 
Sı T$(I) = ACI) + B(I) 


S2 C(I) = T$(I) + T$(I) 

S; T$(I) = D(I) - BCT) 

S4 ACI+1) = T$(I) * T$(I) 
ENDDO 


如 图 5-11 所 示 ， 这 个 例子 的 依赖 图 仍然 是 有 环 的 。 





图 5-11 不 能 仅 由 标量 扩展 打破 的 依赖 环 


定 值 -使 用 图 可 作为 标量 重 命 名 的 基础 。 图 5-12 描 述 一 个 把 标量 划分 为 不 同等 价 类 的 算法 ， 
每 个 等 价 类 可 以 被 重 命名 为 一 个 不 同 的 值 。 简 单 地 说 ， 该 算法 反复 地 选取 一 个 定 值 ， 加 入 该 
定 值 到 达 的 所 有 使 用 ， 然 后 加 入 所 有 到 达 这 些 使 用 的 定 值 ， 如 此 直到 达到 不 动 点 。 最 坏 情 况 
是 所 有 定 值 和 使 用 都 在 同一 划分 中 ， 意 味 着 无 法 进行 任何 重 命名 。 


procedure rename(S, D) 

/ 3 是 被 考虑 重 命名 的 标量 

/ D 是 循环 的 定 值 使 用 图 

Hf rename 把 $ 的 所 有 定 值 和 使 用 划分 为 等 价 类 ， 其 中 每 个 可 以 占用 不 同 的 内 存单 元 

partitions =Ø; 

defs_to_examine = Ø; 

令 unmarked_defs =S 中 的 所 有 定 值 ; 

while (unmarked_defs ! = Ø) do begin 
从 unmarked_defs 中 选 出 并 删除 一 个 元 素 s; 
把 s: 加 入 到 defs_to_examine; 
创建 一 个 新 的 划分 p; 
while (defs_to_examine ! = Ø) do begin 


从 defs_to_examine 中 选 出 并 删除 一 个 元 素 s; 


把 * 加 入 到 p 中 ; 


for each s 可 到 达 的 使 用 u do begin 
把 # 加 入 到 p 中 ; 


for each 可 到 达 x 的 def d E unmarked_defs do begin 
从 unmarked_defs 中 删除 d; 
把 d 加 入 到 defs._to_examine 中 ; 
end 
end 
同样 命名 p 中 的 所 有 元 素 ; 
end 
end 
end rename 





图 5-12 标量 重 命名 
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这 个 算 革 假定 如 果 同 一 变量 同时 出 现在 赋值 表达 式 的 左边 和 右边 ， 左 边 的 定 值 不 同 于 右 
边 的 使 用 。 注 意 这 个 算法 有 一 个 略微 不 同 的 SSA 形 式 的 版 本 ( 见 4.4.4 节 )。 这 种 情况 下 ， 中 节 
点 是 同一 变量 的 定 值 和 使 用 。 所 有 其 他 指令 对 相同 变量 的 定 值 和 引用 都 被 作为 不 同 的 定 值 和 
使 用 。 

在 建立 一 个 安全 地 重 命名 标量 的 算法 以 后 ， 剩 下 的 问题 是 什么 时 候 标 量 重 命名 是 有 利 的 。 
一 般 说 来 ， 在 类 似 于 图 5-11 所 示 的 情况 下 ， 标 量 重 命名 将 打破 依赖 环 ， 其 中 ， 依 赖 环形 成 的 
关键 元 素 是 一 个 循环 无 关 的 输出 依赖 或 反 依赖 。 不 过 ， 标 量 重 命名 基本 上 没有 什么 不 好 的 副 
作用 ， 它 所 导致 的 内 存 的 增加 在 即使 最 坏 情 况 下 也 是 很 少 的 ， 同 时 这 种 情况 几乎 不 存在 , 因 119 
为 几乎 每 个 命名 的 标量 都 能 分 配 到 一 个 寄存 器 。 而 且 ， 大 多 数 优化 编译 器 都 是 在 寄存 器 分 配 
中 确定 活跃 区 间 时 作 标 量 重 命 名 的 。 

标量 重 命名 几乎 没有 代价 ， 而 类 似 的 数组 重 命名 却 不 是 。 正 像 标 量 内 存单 元 有 时 为 不 同 
的 值 所 重用 一 样 ， 数 组 的 存储 单元 有 时 也 被 重用 ， 导 致 不 必要 的 反 依 赖 和 输出 依赖 。 考 虑 如 
下 例子 : 


D0 l=-1, .N 


A(I)、 = A(I-1) + X 
aN 

62 Y(I) = ACI) + 2 
A/ 

A(I) = B(I) +C 


ENDDO - 
这 个 循环 含有 一 个 依赖 环 ， 因 此 不 能 用 至 目前 为 止 讲 过 的 算法 将 其 向 量化 。 这 个 依赖 环 和 标 
量 重 命名 例子 中 的 一 个 依赖 环 类 似 : A(I) 在 循环 中 被 用 来 传递 两 个 不 同 的 值 。 最 后 一 条 语句 
中 的 定 值 和 第 一 条 语句 中 的 引用 涉及 一 个 值 ， 而 第 一 条 语句 中 的 定 值 和 第 二 条 语句 中 的 引用 
涉及 另外 一 个 值 。 如 果 对 第 二 组 值 用 A$(I) 替换 A(I)， 计 算 结果 相同 ， 而 代码 变 为 : 


DOI=1,N 


~ 






3) 







AS(I) = A(I-1) + X 


a 
YI) -Ag +Z l; 
1 


ACI) = B(I) +C 


ENDDO 


正 像 在 标量 重 命名 的 例子 中 那样 ， 关 键 的 反 依赖 和 输出 依赖 被 消除 了 。 这 打破 依赖 环 ， 
使 得 该 循环 能 够 被 向 量化 : 


ACL:N) = B(1:N) + C 
A$(1:N) = A(0:N-1) + X 
Y(1:N) = A$(I:N) + Z 
很 明显 ， 数 组 重 命 名 的 安全 性 和 有 利 性 都 比 标量 重 命名 的 情形 要 复杂 。 标 量 重 命名 可 以 
在 有 控制 流 图 的 情况 下 相对 容易 地 实现 ， 因 为 标量 的 “注销 ”可 以 容易 地 确定 ; 而 确定 数组 
的 注销 就 复杂 多 了 。 而 且 ， 数 组 重 命名 需要 和 数组 大 小 成 比例 的 额外 内 存 空间 (虽然 我 们 将 
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简略 地 讨论 如 何 避 免 这 一 点 ) 一 一 这 一 代价 可 能 严重 影响 程序 的 性 能 。 因 此 ， 数 组 重 命名 需 
要 更 加 谨慎 地 实现 。 

对 于 向 量化 而 言 ， 数 组 重 命名 的 好 处 是 正确 地 消除 重 命名 的 引用 和 数组 之 间 的 循环 无 关 
反 依 赖 和 循环 无 关 输 出 依赖 。 当 这 些 依赖 中 的 某 个 是 依赖 环 存在 的 关键 时 ， 数 组 重 命名 可 以 
打破 那个 环 ， 从 而 可 能 产生 向 量 语句 。 

理想 情况 下 ， 通 过 检查 依赖 图 和 确定 打破 依赖 环 且 可 以 由 数组 重 命名 消除 的 “关键 边 ” 
的 最 小 集合 ， 数 组 重 命名 的 有 利 性 可 以 预先 确定 。 可 惜 这 个 问题 在 这 种 形式 下 是 NP 完全 的 ， 
因此 没有 精确 有 效 的 解决 方法 。 然 而 ， 像 标量 扩展 一 样 ， 如 果 可 以 找 出 通过 数组 重 命名 能 消 
除 的 依赖 边 ， 就 可 以 通过 检查 依赖 图 来 预测 数组 重 命名 的 效果 ， 而 不 需要 实际 执行 开销 很 大 
的 程序 变换 。 

和 标量 重 命名 一 样 ， 当 同一 数组 单元 在 循环 内 重新 定 值 时 ， 使 用 数组 重 命名 来 增加 并 行 
性 是 很 有 效 的 。 但 数组 重 命名 更 为 复杂 ， 因 为 即使 在 没有 控制 流 的 情况 下 ， 确 定 两 个 数组 引 
用 是 否 访 问 同一 数组 元 素 也 是 很 困难 的 ， 在 有 控制 流 变化 时 就 更 为 困难 。 

幸好 ， 如 果 没 有 控制 流 ， 可 以 利用 依赖 图 将 (可 能 的 ) 数 组 引用 划分 成 可 重 命名 的 区 域 。 
图 5-13 给 出 一 个 将 依赖 图 划分 为 可 重 命名 区 域 的 算法 ， 算 法 以 下 述 简化 假设 为 前 提 : 

(1) 循环 体 中 没有 控制 流 。 

(2) 数组 A 的 每 个 使 用 或 引用 以 A(I+tc ) 的 形式 出 现 ，c 是 一 个 常数 。 
实际 的 名 字 空 间 构 造 可 以 用 6.2.5 节 将 要 介绍 的 一 个 合并 算法 来 处 理 。 


procedure array_partition(l, D, A) 
/ 是 当前 考虑 的 循环 
/ 了 是 依赖 图 
ll array_partition 代 表 引 用 数组 A 相同 值 的 引用 集合 ， 
// 使 得 所 有 输出 依赖 和 反 依赖 边 为 可 删除 


令 {d da, ..., d,} 为 数组 A 的 定 值 集合 ; 
令 人 工 定 值 do 表 示 在 循环 外 的 所 有 定 值 ; 
把 依赖 图 看 作 单 个 3[ 用 的 集合 ; 


nameSpace(do) :={ 所 有 依赖 边 的 源 点 在 循环 中 而 汇 点 不 在 循环 中 的 引用 } 
for each 定 值 do begin 
nameSpace(d;) : = {d,}; 
for each 从 循环 中 di 出 发 的 真 依赖 5 do begin 
令 2 为 8 的 汇 点 引用 
让 依赖 图 中 不 存在 从 di 到 u 且 走 过 输 出 依赖 或 者 反 依赖 (循环 无 关 或 者 由 循环 ! 携 带 的 ) 的 路 径 
then 把 x 加 入 到 nameSpace(d); 
end 
end 


end array_partition 





图 5-13 简单 循环 中 数组 重 命名 的 划分 算法 
为 了 证 明 该 算法 是 有 效 的 ， 我 们 必须 证 明 每 个 形 如 4=A(itc,) 的 引用 被 指派 到 恰好 一 个 名 
字 空 间 。 特 别 ， 它 被 指派 到 与 循环 的 迭代 空间 中 离 上 “最 近 ” 的 定 值 相关 联 的 名 字 空 间 。 设 4.= 
A(I+cx) 是 使 距离 cx-cv 最 小 的 那个 定 值 。 如果 这 个 距离 是 0, 那么 在 循环 体 中 必须 出 现在 x 之 前 。 
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RR GETE S PA BA eB OA. BERRA BORLA ee (或 者 循环 体 中 最 靠近 zx 
的 定 值 ， 如 果 距 离 为 0 的 话 )。 我 们 可 以 断言 不 会 有 通过 其 他 定 值 必 的 从 家 到 x 的 依赖 路 径 ， 因 为 
那样 要 么 从 d, 到 u 的 依赖 有 更 小 的 距离 ， 要 么 在 循环 中 4d, 在 4d. 之 后 ， 而 这 两 种 情况 都 违反 假设 。 
这 样 ， 循 环 中 的 每 一 个 使 用 都 在 最 近 之 前 的 定 值 名 字 空 间 中 ,或 者 是 在 缺 省 的 nameSpace(d。)。 

一 旦 有 了 名 字 空 间 ， 代 码 生成 就 是 很 简单 直接 的 了 。 每 个 名 字 空 间 都 被 给 予 一 个 不 同 的 
” 名字， 其 中 一 个 名 字 空 间 仍 然 使 用 原 数 组 名 。 不 过 ， 还 有 一 个 问题 : 我 们 怎样 把 最 终 的 值 存 
HARRA RE? 这 里 的 诀窍 在 于 如 何 使 得 在 开始 或 者 最 后 的 拷贝 操作 最 少 。 我 们 使 用 的 策 
略 是 选取 将 在 最 后 作 最 多 赋值 操作 的 定 值 的 名 字 空 间 ， 证 它 保 持原 数组 名 。 这 可 能 会 导致 在 
开始 时 生成 一 定数 量 的 拷贝 操作 。 我 们 也 将 对 缺 省 名 字 空 间 使 用 原 数 组 名 ， 虽 然 这 将 在 代码 
中 留 下 一 些 反 依 赖 。 下 面 是 该 过 程 的 概要 : 

(1) 令 {C1,C2,...,Cn} 是 在 循环 内 的 定 值 中 找到 的 增 量 常数 ， 按 照 升序 排列 ， 集 合 中 没有 
重复 元 素 ， 并 令 {e1, ez,... ,en} 是 在 循环 内 的 引用 中 找到 的 增 量 常数 ， 也 按照 升序 排列 ， 且 没 
有 重复 。 令 ex 是 某 引 用 中 的 第 一 个 常数 ，ek> cs 或 者 er= crn 且 存在 一 个 引用 A(I+ ex) 位 于 任 一 形 
如 A(I+ cy) 的 定 值 之 前 。 然 后 令 nameSpace(do) {ACI +e), ACI +e), ... AC + e,) AR. 

(2) 令 d 是 循环 体 中 常数 为 c! 的 最 后 一 个 依赖 。 把 原 数组 名 和 nameSpace(d1) 相关 联 ; Al 
为 没有 其 他 的 定 值 会 覆盖 di 写 和 人 的 值 ， 这 保证 将 最 大 数量 的 值 写 到 正确 的 数组 中 去 。 至 于 与 
循环 内 定 值 相关 联 的 其 他 名 字 空 间 ， 只 需 任意 选择 名 字 即 可 。 

(3) 对 nameSpace(do) 也 使 用 原 数组 名 ， 因 为 在 这 个 名 字 空 间 中 的 引用 不 可 能 是 循环 携带 
的 真 依赖 环 的 一 个 部 分 。 不 过 ， 可 能 需要 作 节 点 分 裂 以 消除 一 些 反 依赖 ( 见 下 节 )。 

(4) 为 原 数 组 中 没有 指派 到 原 数 组 名 的 每 一 个 值 插入 收尾 代码 。 如 果 我 们 采用 这 样 的 约 
定 ，d 是 与 对 A(I+c) 的 最 后 一 个 赋值 相关 联 的 定 值 ， 而 A$i 是 和 mameSpace(di) 相关 联 的 名 字 ， 
那么 我 们 需要 在 循环 的 最 后 插入 如 下 所 示 的 一 系列 从 ;= 2 到 mt 的 循环 : 

DO j = ci + 1，Ci 

A(U+J) = A$i(U+j) 

ENDDO 

其 中 是 原来 循环 的 上 界 。 

(5) 最 后 ， 我 们 需要 为 后 续 迭 代 中 最 后 的 定 值 {d 的 名 字 空 间 中 的 任 一 使 用 插入 初始 化 代码 。 
令 A(I+gi) 是 A(I+ ch) 名 字 空 间 中 具有 最 小 增 量 系数 的 使 用 ， 其 中 qi <ci。 和 那么 我 们 需要 插入 循环 

DO j = g + 1，ci 

A$i(j) = ACj) 

ENDDO 


我 们 用 一 个 例子 来 对 此 加 以 说 明 : ， 


DO I = 1, 100 
Sı A(I+2) = A(I+1) + B1 
Sz A(I+1) = A(I+3) + B2 
S; A(I-1) = ACI) +83 


ENDDO 
这 里 语句 Si 中 定 值 A(I+2) 的 名 字 空 间 包含 A(I+1) 在 相同 语句 中 的 使 用 ; 语句 S: 中 定 值 
A(I+1) 的 名 字 空 间 包 含 A(I) 在 5 中 的 使 用 ; 而 语句 S: 中 定 值 A(I~1) 的 名 字 空 间 只 包含 它 自己 。 
对 循环 输入 的 缺 省 名 字 空间 仅 包含 在 语句 S: 中 A(I+3 ) 的 使 用 。 如 果 按 照 前 面 的 算法 并 对 S: 中 
的 定 值 和 $: 中 的 使 用 采用 原 数 组 名 ， 我 们 将 得 到 包括 初始 化 的 变换 后 的 代码 ， 在 把 单 挝 代 循 
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环 缩 为 单个 语句 以 后 ， 代 码 如 下 : 


A$1(1) = A(1) 
A$2(2) = A(2) 


DO I = 1，100 
Sı A$2(I+2) = A$2(I+1) + Bl 
Sz A$1(I+1) = A(I+3) + B2 
Ss ACI-1) = A$I(I) + B3 
ENDDO 
DO j = 0, 1 
A(100+j) = A$1(100+j) 
ENDDO 
A(102) = A$2(102) 
5.5 PARR 


在 某 些 特殊 情况 下 ， 当 应 用 上 一 节 的 重 命 名 算法 以 后 ， 我 们 仍然 不 能 消除 茶 个 关键 的 反 
依赖 。 这 是 因为 ,为 了 避免 复制 ,我 们 对 同一 语句 的 同一 名 字 有 两 个 不 同 的 名 字 空 间 。 考 虑 
下 面 的 例子 : | 


DOI-1,N 


ACI) = X(I+1) + X(I) 
51 fs. 

X(I+1) = BCI) + 10 
ENDDO 


如 果 上 述 重 命名 算法 应 用 于 这 个 循环 ， 在 第 一 条 语句 中 两 个 x 的 不 同 引 用 会 在 两 个 不 同 的 
名 字 空 间 中 ， 因 为 第 一 个 引用 的 是 X 在 循环 入 口 处 的 值 ( 例 如 X(I+1))， 而 第 二 个 (例如 X(I)) 
是 在 循环 内 计算 的 值 ， 只 除了 在 第 一 个 选 代 。 而 且 我 们 的 命名 算法 试图 对 这 两 个 名 字 空 间 都 
使 用 原 数组 名 。 这 样 ， 就 使 反 依 赖 和 依赖 环保 留 下 来 。 

当 一 个 依赖 环 包含 这 样 一 个 关键 的 反 依赖 时 ( 即 如 果 这 个 反 依赖 不 存在 ， 就 不 会 有 依赖 
环 )， 它 有 可 能 可 以 通过 熟知 的 节点 分 有 裂 技术 消除 。 节 点 分 裂 对 反 依 赖 的 源 节 点 生成 一 个 搁 
贝 ; 如 果 没 有 依赖 以 这 个 节点 为 汇 点 ， 那 么 这 个 依赖 环 将 被 打破 。 节 点 分 裂 生成 了 一 个 X 数 组 
的 找 由 以 提供 对 旧 值 的 访问 ， 从 而 允许 语句 被 重 排序 。( 在 需要 时 ， 这 个 优化 可 以 在 重 命名 操 
作 中 自动 地 实现 ， 只 需 给 缺 省 的 nameSpace(do) 一 个 生成 的 名 字 并 在 循环 外 初始 化 即 可 。) 


DO I=-1,N 
X$(I) = X(I+1) 









ACI) = X$(1) + X(I)| et 
5 5. 


X(I+1) = B(I) + 10 
ENDDO 
当 将 codegen 应 用 于 变换 过 的 代码 时 ， 至 此 就 可 以 线性 化 这 些 依赖 ( 因为 环 已 经 被 打破 )， 
生成 如 下 的 向 量 代码 : 


X$(1:N) = X(2:N+1) 
X(2:N+1) = BCI:N) + 10 
ACL:N) = X$(1:N) + XC1:N) 
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一 旦 确定 需要 消除 的 反 依赖 ， 实 现 节 点 分 裂变 换 就 很 简单 了 。 反 依赖 的 惟一 需要 是 源 点 
引用 只 能 使 用 数组 的 “ 旧 ” 值 。 具 有 常数 阔 值 的 反 依赖 总 能 满足 这 个 要 求 。 图 5-14 给 出 假定 
在 反 依赖 被 删除 时 分 裂 一 个 节点 的 算法 。 这 个 算法 只 是 以 一 个 标量 《假定 后 面 将 调用 标量 扩 
展 ) 替换 引用 ， 并 更 新 依赖 图 以 反映 程序 的 变化 。 


procedure node_split(D) 
1/ node_spii 对 一 个 已 知 的 ， 循 环 无 关 的 反 依 赖 ， 
1/ 分 像 这 个 依赖 相应 的 节点 ， 并 且 相 应 地 调整 依赖 图 
设 T$ 是 一 个 还 未 在 程序 中 使 用 的 新 标量 ; 
创建 一 个 新 的 赋值 z: T$ = source(D) 并 且 把 它 持 入 到 source(D) 之 前 ; 


FATS ££ fa source(D); 
加 入 一 个 从 x 到 source(D) 的 循环 无 关 真 依赖 ; 
把 source(D) 改 为 x; 


end node_split 





图 5-14 节点 分 裂 算 法 


容易 看 出 ，node_split 是 通过 把 源 点 移 到 一 个 不 可 能 包含 在 任何 依赖 环 中 的 语句 来 消除 反 
依赖 的 。 尽 管 节点 分 裂 可 以 通过 某 种 数组 重 命名 来 实现 ， 但 它 常 可 以 应 用 于 比重 命名 的 适用 
范围 更 广 的 循环 。 例 如 ， 考 虑 原来 例子 的 一 个 变形 : 





© X(I+1) = A(I) + 10 


ENDDO 


因为 对 X(2) 的 引用 ，5.4 节 的 数组 重 命名 算法 在 这 里 不 能 使 用 ， 但 是 节点 分 裂 依然 可 以 进行 。 
虽然 容易 应 用 节点 分 裂 ， 但 是 要 确定 它 在 某 种 特定 情况 下 是 否 有 利 却 不 是 很 容易 。 下 面 
的 例子 说 明 节 点 分 裂 并 不 总 是 能 够 打破 依赖 环 : 


pO 1-1, N 

ACI) -~_X(I+1) + X(T) 
51| ag A 

X(I+1) = ACI) + 10 
ENDDO l 


应 用 图 $-14 的 变换 得 到 如 下 代码 : 


DOI=1,N 
X$ = X(I+1) 





ki) ACD) + 10 
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标量 扩展 可 以 使 得 生成 的 对 X$ 的 赋值 能 够 被 向 量化 ， 但 其 余 的 语句 仍 限制 在 一 个 依赖 环 内 。 
这 里 的 问题 是 反 依赖 对 于 依赖 环 来 说 并 不 是 关键 的 。 为 了 使 节点 分 裂 生 成 能 够 有 效 的 被 向 量 
化 的 代码 ， 被 分 裂 的 依赖 对 于 依赖 环 必须 是 “关键 ”的 ; 也 就 是 说 ， 消 除 该 依赖 必然 会 打破 
依赖 环 。 遗憾 的 是 ， 在 一 个 给 定 的 环 中 确定 这 样 一 个 最 小 关键 依赖 集 的 问题 是 一 个 NP 完 全 问 
题 。 因 此 ， 没 有 求 最 优 解 的 有 效 方法 。 换 名 话说， 对 于 产品 编译 器 的 开发 人 员 来 说 ， 作 一 个 
完美 的 节点 分 裂 可 能 不 太 现实 。 

所 幸 有 了 图 $-14 的 方法 ， 我 们 并 不 一 定 需 要 那么 完美 的 节点 分 裂 ， 因 为 变换 的 主要 开销 
发 生 在 临时 标量 被 扩展 时 。 如 果 仅 当 有 把 握 产 生 有 利 的 向 量化 时 才 作 标量 扩展 ， 且 有 利 性 算 
法 知道 人 为 加 入 的 赋值 不 会 产生 有 利 的 向 量化 ， 那 么 只 要 可 能 就 可 以 作 节 点 分 裂 而 不 必 担 心 
有 降低 性 能 的 危险 。 

由 这 些 观 察 可 以 得 出 一 个 简单 的 节点 分 裂 策略 : 选择 依赖 环 中 的 一 个 反 依赖 ， 删 除 它 ， 
看 结果 是 否 无 环 。 如 果 是 ， 那 么 就 应 用 节点 分 裂 来 消除 那些 反 依赖 。 

我 们 把 证 明 节 点 分 裂 的 正确 性 作为 一 个 习题 留 给 读者 ， 即 证 明 当 节点 分 裂 应 用 于 依赖 环 
上 的 关键 反 依赖 时 ， 依 赖 环 会 被 打破 。 然 而 ， 需 要 注意 的 是 ， 即 使 依赖 环 被 打破 了 ， 仍 有 可 
能 不 能 向 量化 ， 因 为 原来 的 依赖 环 可 能 只 是 被 分 裂 成 了 一 组 较 小 的 依赖 环 。 


5.6 归 约 识别 
很 多 不 能 直接 向 量化 的 操作 在 程序 中 经 常 出 现 ， 以 至 于 可 以 考虑 在 向 量 体 系 结构 中 使 用 
一 些 特殊 的 硬件 来 处 理 它们 。 例 如 ， 把 一 个 向 量 或 数组 中 的 元 素 累加 起 来 是 一 个 极为 常见 的 
操作 ， 但 它 不 能 直接 向 量化 。 通 过 合并 数组 各 元 素 而 得 到 单个 元 素 的 过 程 叫做 归 约 一 一 因为 
这 个 操作 把 向 量 归 约 为 一 个 元 素 。 累 加 一 个 向 量 叫做 sum 归 约 。 求 一 个 向 量 的 最 大 /最 小 元 素 
是 一 个 max/min 归 约 。 计 算 一 个 向 量 中 的 真 元 素 的 个 数 叫 做 count 轨 约 。 
因为 归 约 在 很 多 重要 的 程序 中 出 现 ， 所 以 很 多 机 器 都 有 特殊 的 硬件 或 软件 过 程 来 计算 它 
们 。 例 如 ， 考 虑 下 面 的 sum 归 约 : 
s = 0.0 
DO I= 1, N 
S=S+ATI) 
ENDDO 
如 果 假 设 浮 点 加 是 交换 的 和 结合 的 (这 个 假设 几乎 不 会 是 真正 正确 的 ， 但 是 通常 情况 很 接近 ， 
因此 不 必 让 程序 员 过 于 为 此 费心 ) ， 那 么 归 约 可 以 被 重 写 为 一 些 并 行 的 部 分 和 ， 并 在 最 后 求 它 
们 的 和 。 在 一 个 有 四 级 加 法 流水 线 的 目标 机 上 ， 一 种 自然 的 变换 是 把 归 约 分 解 为 四 个 部 分 求 
和 归 约 : 
§ = 0.0 
DOk=I,4 
SUM(k) = 0.0 
DO I=k, N, 4 
SUM(k) = SUM(K) + ACT) 
ENDDO 
S= § + SUM(k) 
ENDDO 


将 k- 循 环 分 布 可 以 自然 地 把 归 约 分 解 为 三 部 分 : 初始 化 ， 计 算 ， 结 束 处 理 。 
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S$ = 0.0 
Dok =1, 4 
SUM(k) = 0.0 
ENDDO 
DOk=1, 4 
DO I = k, N, 4 
SUM(k) = SUM(k) + ACI) 
ENDDO 
ENDDO 
DOk =1, 4 
S= S+ SUM(K) 
ENDDO 


因为 目标 机 有 四 级 流水 线 ， 我 们 希望 对 计算 嵌 套 内 的 循环 进行 交换 ， 得 到 
DOI=1,N, 4 


DO k = I, min(I+3,N) 
SUM(k-I+1) = SUM(k~I+1) + ACI) 


ENDDO 
ENDDO 
内 层 循 环 不 携带 依赖 ， 因 此 可 以 被 向 量化 ， 得 到 
DOI=1,N,4 

SUM(1:4) = SUM(1:4) + A(I:1+3) 
ENDDO 


如 果 一 个 向 量 计算 被 抽象 地 视 为 同时 发 生 的 (实际 上 并 非 如 此 )， 则 此 形式 同时 将 A 的 四 个 元 
， 素 加 到 四 个 不 同 的 部 分 和 上 。 这 些 部 分 和 再 由 外 层 循环 累加 起 来 (通常 存 和 一 组 叫做 累加 器 
的 特殊 寄存 器 中 )。 图 5-15 图 示 显 示 在 四 级 流水 情况 下 的 这 个 过 程 。 


SUM(1) E SUM(3) SUM(2) 
+ + 
A(1+2) A(I+1) 


A(I+4) —* 
图 5-15 sum 归 约 的 流水 线 


尽管 向 量 的 长 度 较 短 ， 这 一 形式 仍然 较 类 似 的 标量 计算 提高 了 速度 。 然 而 ， 需 要 注意 的 
是 ， 如 果 5UM(1) 的 结果 可 以 在 得 到 后 就 立即 反馈 给 流水 线 ( 如 图 5-15 左 端 所 示 )， 这 个 计算 基 
本 可 以 按 向 量 速度 执行 一 一 当 结 果 从 流水 线 一 端 出 来 ， 就 立即 被 反馈 到 开头 。 一 旦 求 得 在 
SUM(1:4) 中 的 四 个 部 分 和 和， 总 和 可 以 通过 三 个 浮 点 加 法 计算 出 来 ， 其 中 两 个 可 以 重 耸 。 类 似 
的 技术 可 以 被 用 于 计算 乘积 、min/max 以 及 其 他 的 归 约 。 

Fortran 90 的 内 部 函数 SUM 被 用 来 提供 一 种 尽 可 能 快 的 可 交换 和 可 结合 的 sum 归 约 。 这 样 ， 
如 果 编 译 器 能 识别 出 sum 归 约 循 环 并 用 适当 的 内 部 函数 调用 

S = SUM(A(1:N)) . 
替换 它 , 那么 在 任何 有 sum 归 约 硬 件 的 机 器 上 都 将 得 到 高 效 的 代码 。Fortran 90 内 部 函数 PRODUCT , 
MINVAL 以 及 MAXVAL 分 别 在 乘法 、 最 小 值 和 最 大 值 的 计算 中 扮演 着 相同 的 角色 。 

因此 ， 对 于 先进 编译 器 的 编写 者 来 说 ， 问 题 是 识别 归 约 并 在 可 能 的 情况 下 用 等 价 但 更 快 
速 的 内 部 过 程 替换 归 约 。 归 约 有 三 个 基本 的 性 质 : 














SUM(4) SUM(1) 
+ + 











A(1+3) A(T) 
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© 
o0 


+b 


142 RS 


(1) 它们 把 某 个 向 量 或 者 数组 维 的 元 素 归 约 为 一 个 元 素 。 

(2) 只 有 归 约 的 最 终结 果 会 在 后 面 用 到 ; 任何 对 中 间 结 果 的 使 用 都 避免 归 约 。 

(3) 在 中 间 累 加 过 程 中 没有 变化 ; 也 就 是 说 ， 妇 约 只 对 向 量 进行 操作 。 

幸运 的 是 ， 这 些 性 质 很 容易 用 依赖 图 来 确定 。 考 虑 前 面 提 到 的 sum 归 约 循 环 的 依赖 图 : 


DOI=1,N 
6° 6-1 


in 
Ch} + ACI) 


ENDDO 


这 个 到 自身 的 真 依赖 、 输 出 依赖 和 反 依 赖 的 模式 对 于 -个 归 约 的 存在 是 必要 的 。 真 依赖 反映 
在 每 个 迭代 中 语句 加 到 部 分 累加 结果 的 事实 ; 输出 依赖 反映 只 有 最 后 结果 被 使 用 的 事实 ; 而 
反 依 赖 反 映 部 分 累加 和 会 被 重 写 的 事实 。 这 些 依赖 对 于 满足 归 约 的 第 一 个 性 质 都 是 必要 的 。 
第 二 个 和 第 三 个 性 质 由 不 出 现 其 他 真 依赖 反映 出 来 的 。 为 举例 说 明 不 满足 这 些 要 求 的 一 
段 代 码 ， 考 虑 下 面 的 例子 : 
DOI=1, N 
Sı S=S+AI) 
So T(I) =§ 
ENDDO 
归 约 的 中 间 值 被 $: 使 用 -一 如 果 归 约 作为 单个 的 操作 执行 就 无 法 得 到 这 些 值 。 
第 三 个 性 质 是 与 中 间 值 的 使 用 对 称 的 ， 但 是 同 传人 归 约 的 值 有 关 。 这 个 条 件 在 没有 真 依 
赖 传 信 归 约 时 得 到 福 足 。 
验证 第 二 个 和 第 三 个 性 质 使 用 的 最 简单 的 方法 是 在 循环 被 分 布 时 识别 归 约 。 如 果 两 个 条 
件 都 满足 ， 那 么 在 循环 分 布 后 ， 归 约 将 变 为 单个 语句 的 依赖 环 。 如 果 其 中 任 一 条 件 不 满足 ， 
那么 归 约 因 其 累加 到 单个 元 素 的 性 质 ， 将 会 把 其 他 语句 也 拉 到 依赖 环 里 来 。 
由 于 归 约 很 少 可 以 充分 利用 向 量 机 硬件 ， 在 识别 归 约 时 必须 小 心 ， 确 保 归 约 的 识别 不 会 
掩盖 另外 一 种 更 高 效 的 循环 形式 。 考 虑 下 面 的 例子 : 
DOI=1,N 
DOJ =1, M 
S(I) = S(I) + A(1,J) 
ENDDO 
ENDDO 
内 层 循 环 是 一 个 sum 归 约 且 代码 可 以 被 替换 为 
DOI=1,N 
S(I) = S(I) + SUM( A(I,1:M)) 
ENDDO 
然而 ， 外 层 的 循环 对 5 的 所 有 元 素 进 行 归 约 。 因 此 ， 它 可 以 通过 循环 交换 直接 向 量化 ， 得 到 
DOJ=1, M 
S(1:N) = S(1:N) + A(1:N,J) 
ENDDO 
这 个 形式 在 大 多 数 向 量 机 上 更 加 有 效 ， 表 现 为 有 适当 的 标量 化 和 内 存 优化 得 以 执行 《如 
第 8 和 第 13 章 的 描述 ) 。 因 此 ， 不 能 过 早 地 在 向 量 代码 生成 过 程 中 通过 插入 等 价 的 归 约 对 代码 
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任意 进行 变换 。 相 反 ， 归 约 的 插 人 应 当 在 其 他 选择 都 考虑 过 以 后 再 进行 。 


5.7 索引 集 分 列 

有 很 多 这 样 的 情况 ， 循 环 中 的 依赖 环 无 法 用 到 目前 为 止 讨论 过 的 方法 打破 ， 但 是 依赖 的 
模式 只 在 循环 的 部 分 迭代 中 保持 。 在 这 种 情况 下 ， 索 引 集 分 裂变 换 ， 一 种 将 循环 划分 为 不 同 
迭代 范围 的 变换 ， 可 以 被 用 来 达到 部 分 的 并 行 化。 在 这 一 节 我 们 将 讨论 一 些 这 样 的 变换 。 


5.7.1 阅 值 分 析 
回忆 一 下 ， 依 赖 的 闵 值 是 它 最 左边 的 非 零 距离 的 值 。 换 句 话 说 ， 阀 值 就 是 携带 循环 在 访 
问 依赖 的 源 点 和 访问 依赖 的 汇 点 之 间 的 迭代 的 次 数 。 因 为 必须 有 这 两 个 访问 依赖 才能 存在 ， 
一 种 生成 向 量化 代码 的 方法 是 把 循环 分 割 成 比 依赖 国 值 还 小 的 块 。 例 如 ， 下 面 的 循环 不 携带 
依赖 ， 因 为 它 的 上 界 恰好 等 于 依赖 的 国 值 : 
DO I = 1, 20 
A(I+20) = A(I) +B 
ENDDO 
因此 ， 它 可 以 被 直接 重 写成 一 个 向 量 语 句 : 
A(21:40) = A(1:20) + B ` 
RM, WREKEN T. RARE, MPRA A RE HE Bee. A TRIR 
本 所 示 : 
DO I= 1, 100 
A(I+20) = A(I) +B 
ENDDO 
这 个 问题 很 容易 通过 循环 分 段 将 循环 划分 为 不 大 于 20 的 块 而 得 到 解决 : 
00 I = 1, 100, 20 
DO j = I, I+19 
A(j+20) = A(j) +B 


ENDDO 
ENDDO 
因为 阔 值 的 作用 ， 内 层 循 环 是 无 依赖 的 ; 而 外 层 的 循环 携带 所 有 的 依赖 。 因 此 ， 内 层 循环 可 
以 被 向 量化 : 


DO I = 1, 100, 20 
A(I+21:1+40) = A(I:I+19) + B 

ENDDO 

遗憾 的 是 ， 这 个 变换 在 实践 中 不 是 很 有 用 的 ， 因 为 实际 程序 中 的 依赖 的 阅 值 通常 都 比较 
小 -一 特别 是 ， 最 常见 的 效 值 是 一 个 迭代 。 不 过 ， 这 一 分 析 对 于 某 些 特 殊 类 型 的 程序 是 很 有 
用 的 一 一 例如 ， 模 拟 动态 存储 分 配 的 程序 ( 它 通过 给 一 个 主 数组 的 不 同 段 赋予 不 同 的 抽象 数 
组 ) 以 及 将 多 维 数组 作为 一 维 向 量 接收 的 子 程序 。 

虽然 常数 阔 值 是 最 常见 的 ， 但 是 跨越 冰 值 在 实际 程序 中 也 经 党 出现， 因此 值得 对 它们 进 
行 分 析 。 在 3.3.2 节 中 筒 赂 介绍 过 的 跨越 阔 值 ， 出 现在 依赖 的 距离 会 变化 ， 而 所 有 依赖 都 跨越 
一 个 特定 迭代 的 依赖 中 。 下 面 的 循环 是 一 个 例子 : 


DO I = 1, 100 





O 
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Si A(101-I1) =A (I) +B 
ENDDO 
Si 到 自身 的 依赖 的 距离 从 I=1 时 的 99 变 化 到 I=50 时 的 1。 在 那 之 后 引用 反 过 来 了 ， 真 依赖 
变 成 了 反 依 赖 。 所 有 的 依赖 ， 不 管 是 真 依赖 或 者 反 依赖 ， 其 源 点 都 在 迭代 50 之 前 ， 而 其 汇 点 
都 在 迭代 50 之 后 。 因 此 ， 如 果 循环 按 长 度 50 作 循环 分 段 ， 则 所 有 依赖 都 将 留 在 外 层 循环 中 ， 
从 而 使 得 内 层 循环 没有 依赖 环 : 
DO I = 1, 100, 50 
DO j= I, I+49 
A(101-j) = A(j) +B 
ENDDO 
ENDDO 
将 codegen 用 于 变换 过 的 循环 ， 得 到 下 面 的 向 量 代码 : 
DO I = 1, 100, 50 
A(101-1:51-I) = A(I:I+49) + B 
ENDDO 
跨越 阅 值 可 以 由 依赖 分 析 器 以 一 种 自然 的 方式 计算 出 来 ， 如 3.3.2 节 所 示 。 
鉴于 这 些 简单 的 情况 的 处 理 实现 起 来 很 容易 ， 且 检测 这 些 情况 所 需 的 编译 时 间 也 很 少 ， 
因此 尽管 应 用 这 一 技术 而 获 利 的 情况 很 少 ， 在 产品 编译 器 中 加 入 一 些 基于 阔 值 的 索引 分 裂 还 
是 可 行 的 。 特 别 是 ， 后 面 几 章 将 介绍 阐 值 分 析 在 向 量化 之 外 的 一 些 实际 应 用 。 


5.7.2 循环 剥离 
一 种 更 常 出 现 的 情况 是 循环 有 一 个 以 单个 选 代为 源 点 的 携带 依赖 
DOI=1,N 
A(T) = ACI) + A(1) 
ENDDO 


每 个 迭代 中 的 计算 都 使 用 第 一 个 迭代 计算 出 来 的 A(1) 的 值 。 这 个 携带 依赖 可 以 通过 剥离 循环 
的 第 一 个 迭代 放 到 循环 前 绥 块 中 的 方法 将 其 转化 为 从 循环 外 来 的 循环 无 关 依 赖 : 


A(1) = A(1) + A(1) 


DOI=2,N 
ACI) = ACI) + A(1) 
ENDDO 


这 样 得 到 的 循环 不 携带 任何 依赖 ， 可 以 直接 被 向 量化 : 
ACL) = ACL) + A(1) 
A(2:N) = A(2:N) + A(1) 


循环 剥离 可 能 涉及 除 第 一 个 和 最 后 一 个 迭代 之 外 的 其 他 选 代 ; 在 这 种 情况 下 ， 循 环 必 须 
沿 导致 依赖 的 迭代 进行 分 裂 。 例 如 ， 假 设 在 下 面 的 例子 中 ，N 恰 能 被 2 整除 : 


DOI=1,N 
A(T) = A(N/2) + B(I) 
ENDDO 


我 们 希望 通过 循环 分 裂 将 循环 携带 依赖 转化 为 两 个 循环 间 的 循环 无 关 依赖 。 这 样 得 到 以 
下 代码 段 : 
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M = N/2 
DOI=1,M 

ACI) = A(N/2) + BCT) 
ENDDO 


DOI =M+1, N 
ACI) = A(N/2) + B(I) 
ENDDO 


LAZE PTE SR. FE ALB RA) TA RR I Se. EEE 
况 下 ， 确 定 这 种 变换 的 测试 是 在 3.3.2 节 中 介绍 过 的 弱 ~0 测 试 。 
5.7.3 基于 区 域 的 分 裂 
一 个 循环 剥离 的 变 体 可 以 用 下 面 的 循环 侯 套 说 明 ， 这 里 ， 我 们 再 次 假设 N 恰 能 被 2 整除 : 
DOI=1,N 
DO J = 1, N/2 
Sı B(J,I) = A(J,I) +C 
ENDDO 
00 J= 1, N 
So A(U,I+l) = B(J,I)+D 
ENDDO 
ENDDO 


在 这 个 例子 中 有 两 个 值得 注意 的 依赖 : 从 5 到 5。 (由 8 引起 ) 的 循环 无 关 依赖 和 从 5 到 5 
(由 A 引 起 ) 的 由 I- 循 环 携带 的 依赖 。 因 此 ， -循环 可 以 被 向 量化 ， 但 是 外 层 循环 被 限制 在 一 
个 依赖 环 内 。 因 为 S; 只 定 值 8 的 一 部 分 (B(1:NMM2))， 故 一 个 请 除 循环 无 关 依 赖 的 很 自然 的 方 
法 就 是 把 第 二 个 循环 划分 为 两 个 循环 : 一 个 使 用 5 的 结果 而 另 一 个 不 使 用 5; 的 结果 。 下 面 的 代 
码 说 明 这 样 一 个 划分 : 

DOI=1,N 
DO J = 1, N/2 
Sı B(J,1) = A(J,1) + C 
ENDDO 
DO J= 1, N/2 
Sz ACJ, I+1) = B(J,I) + D 
ENDDO 
DO J = N/2+1, N 
S; A(J,I+1) = B(J,I) + D 
ENDDO 
ENDDO 


S$; 现 在 与 其 他 两 条 语句 无 关 ， 因 此 codegen 将 分 布 I- 循 环 并 依照 拓扑 序 把 S: 移 动 到 开始 处 : 


DOI =1,N 
DO J = N/2+1, N 
S; A(J,I+1) = B(J,I) +D 
ENDDO 
ENDDO 
DOI=1,N 
DO J = 1, N/2 
Si B(J,I) = A(J,I) +C 
ENDDO 
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DOJ = 1, N/2 
Sz A(J,I+1) = B(J,I) + D 
ENDDO 
ENDDO 
这 样 ，5; 可 在 两 维 上 被 向 量化 ， 而 其 余 的 部 分 将 只 在 J- 维 上 被 向 量化 : 
M = N/2 
Sy A(M+1:N, 2:N+1) = B(M+1:N, 1:N) +D 


DOI=1,N 

Sı BC1:M,I) = A(1:M,I) +€ 

S A(1:M,I+1) = B(1:M,I) + D 

ENDDO 

这 种 变换 需要 有 对 流 经 依赖 边 的 数组 区 域 的 复杂 知识 和 分 析 。 例 如 ， 这 个 例子 是 基于 我 
们 知道 仅 有 B 的 一 部 分 在 I- 循 环 中 被 定义 和 使 用 这 一 事实 。 和 靖 值 一 样 ， 如 果 对 所 有 的 循环 都 
应 用 这 一 分 析 可 能 太 复 杂 且 代价 太 高 。 然 而 ， 在 有 过 程 调用 的 情形 ， 这 样 的 分 析 可 能 是 值得 
的 。 第 11 章 将 介绍 为 确定 过 程 间 的 影响 而 开发 的 这 种 分 析 。 

5.8 运行 时 符号 解析 

住 很 多 代码 中 的 符号 变量 出 现在 下 标 中 ， 这 使 得 依赖 测试 变 得 复杂 了 。 在 那 种 情况 下 ， 
依赖 分 析 器 必须 作 保守 的 假设 。 例 如 ， 在 循环 

DOI=1,N 

A(I+L) = ACI) + B(I) 

ENDDO 
中 ， 未 知 变量 L 阻 止 向 量化 。 如 果 L 大 于 0， 那 么 该 语句 包含 一 个 到 自身 的 真 依赖 ， 而 显然 不 能 
被 向 量化 。 如 果 L 小 于 或 者 等 于 0， 那 么 语句 或 者 不 包含 依赖 ， 或 者 包含 一 个 到 自身 的 反 依赖 ， 
并 不 妨碍 向 量化 。 因 为 L 很 有 可 能 在 运行 时 定 值 ， 无 法 在 编译 时 确定 ， 因 此 在 重 构 阶段 通常 只 
能 假设 真 依赖 和 反 依 赖 都 存在 。 一 种 缓和 这 种 保守 性 的 方法 是 给 依赖 边 加 注 消除 条 件 ， 它 们 
是 一 些 逻 辑 表 达 式 ， 其 值 为 真 时 依赖 即 可 被 消除 ( 见 3.3.2 节 )。 例 如 ， 在 这 个 例子 中 ， 真 依赖 
的 消除 条 件 是 (L.LE.0)， 而 反 依赖 的 消除 条 件 是 (L.GT.0). 

当 循环 中 有 消除 条 件 时 ， 循 环 通常 可 以 被 有 条 件 地 向 量化 ， 即 将 其 置 于 一 个 IF 语 句 中 以 
保证 不 存在 的 依赖 足以 打破 依赖 环 。 在 前 边 的 例子 中 ， 消 除 真 依赖 即 足 以 打破 依赖 环 ， 因 此 
循环 可 以 如 下 向 量化 : 

IF (L .LE. 0) THEN 

ACL:N+L) = A(1:N) + BC1:N) 

ELSE 

DO I =1, N 
A(I+L) = ACI) + B(I) 
ENDDO 
ENDIF 


消除 条 件 的 一 个 很 常见 的 应 用 是 在 可 变 跨 距 的 计算 中 。 这 些 跨 距 在 非常 通用 的 支持 对 任 
意 数组 操作 的 库 程 序 包 中 特别 流行 ， 如 像 LINPACKI[106]。 例 如 ， 下 面 的 代码 类 似 DAXPY 
(一 种 常见 的 线性 代数 操作 ，、 是 LINPACK 的 基础 ): 


DO I=1,N 
A(I*IS-IS+1) = A(I*IS-IS+1) + B(I) 
ENDDO 
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如 果 IS 恰 好 是 零 (实际 上 IS 几 乎 从 不 等 于 零 ) ， 这 个 循环 就 是 一 个 归 约 ， 有 一 个 由 循环 携 
带 的 真 依赖 、 输 出 依赖 和 反 依 赖 。 如 果 IS 是 任意 非 零 值 ， 那 就 没有 依赖 ， 而 这 个 循环 可 以 被 
完全 向 量化 。 这 种 类 型 的 结构 很 容易 被 依赖 分 析 器 检测 到 ， 从 而 生成 如 下 检查 消除 条 件 时 的 
代码 : 

M = N*IS - IS + 1 

IF (IS .NE. 0) THEN 

A(1:M:IS) = A(1:M:IS) + B(1:N) 
ELSE 
A(1) = A(1) + SUM(B(1:N)) 

ENDIF 
在 这 个 例子 中 ， 使 用 消除 条 件 使 得 无 论 其 值 为 真 或 假 都 能 生成 向 量 代码 ， 因 为 在 依赖 存在 时 , 
循环 就 变 成 了 一 个 求 和 归 约 。 

一 般 说 来 ， 一 个 循环 可 以 包含 任意 数量 的 消除 条 件 。 但 正如 确定 通过 数组 重 命名 可 以 打 
破 依 赖 环 的 最 小 依赖 的 集合 是 一 个 NP 完全 问题 一 样 ， 确 定 打破 一 个 依赖 环 所 需 的 最 少 的 消除 
条 件 也 是 一 个 NP 完全 问题 。 因 此 ， 在 产品 编译 器 中 试图 在 很 一 般 的 情况 下 处 理 消除 条 件 可 能 
是 不 现实 的 。 然 而 ， 本 节 给 出 的 简单 例子 是 从 一 些 重要 的 数值 计算 程序 包 中 摘出 来 的 ， 说 明 
至 少 应 有 一 种 可 以 处 理 这 些 情况 的 方法 。 这 样 我 们 建议 使 用 一 种 类 似 于 结 点 分 裂 中 使 用 过 的 
分 析 方 法 ， 来 确定 何 时 可 以 通过 消除 条 件 而 有 条 件 地 消除 一 个 关键 依赖 。 
5.9 ”循环 倾斜 

到 目前 为 止 所 给 出 的 所 有 程序 变换 都 是 在 探讨 如 何 发 现 并 行 的 循环 选 代 。 尽 管 大 多 数 程 
序 有 很 规则 的 并 行 性 ， 可 以 表示 为 并 行 循环 ， 但 一 些 重 要 的 例子 不 是 这 样 。 循 环 倾 针 是 一 种 
改变 迭代 空间 形式 的 变换 ，- 可 以 把 存在 的 并 行 性 用 传统 的 并 行 循环 的 形式 表示 出 来 。 作 为 例 
F. 考虑 下 面 的 循环 : 


DOI-1,N 
po J=1, N 
(=,<) 
oo 
S: A(I.,J) = ACI-1,J) + ACI,J-1) 
WA 


从 依赖 关系 便 很 容易 看 出 ， 没 有 循环 能 够 并 行 执 行 ; I- 循环 和 J- 循 环 都 携带 依赖 。 然 而 ， 
这 段 代 码 确实 包含 并 行 性 ， 以 图 形 的 方式 最 容易 看 出 。 图 5-16 显 示 这 个 例子 散布 在 迭代 空间 
中 的 依赖 。 显 然 ， 没 有 循环 可 以 并 行 执行 ， 因 为 依赖 边 跨越 两 个 坐标 轴 。 任 何 沿 某 个 坐标 轴 
向 下 移动 一 行 并 行 性 的 尝试 都 会 失败 ， 因 为 依赖 关系 使 得 任何 和 坐标 轴 平 行 的 行 只 能 串 行 执 
行 。 然 而 ， 在 从 左上 角 到 右 下 角 的 对 角 线 行 上 却 存在 着 并 行 性 。 例 如 ， 一 旦 和 迭代 5(1,1) 执 行 
完 ， 和 迭代 S(1,2) 和 S(2,1) 就 可 以 并 行 执行 ; 类 似 地 ， 在 迭代 5(1,2) 和 5(2,1) 执 行 完 以 后 ， 
S(1,3),S$(2,2) 和 S(3,1) 可 以 并 行 地 执行 。 换 名 话说 ， 包 含 并 行 性 的 对 角 线 可 以 从 选 代 空 间 
中 提取 出 来 ， 从 左下 角 开 始 进行 到 右上 角 。 问 题 是 ， 这 一 并 行 性 并 不 能 直接 应 用 到 任 一 循环 。 

一 种 旋转 有 并 行 性 的 对 角 线 使 其 通过 一 个 循环 的 方法 是 重 映射 迭代 空间 ， 同 线性 代数 中 
找 特征 值 非常 相似 。 在 这 个 例子 中 ， 一 个 可 行 的 映射 是 创建 一 个 如 下 的 新 索引 变量 j: 
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图 5-16 循环 倾斜 前 的 依赖 模式 





j=J+I 
使 用 以 j 替 换 J 给 出 的 逆 映 射 
J=Jj-I 
替换 原来 例子 中 的 V， 得 到 如 下 的 代码 : 
DOI= 1, N 
DOj-1+1, 1+N 
(=,<) 
a x 
S: AC(IL,j-I) = A(I-1,j-I) + A(I,j-I-1) 
(<,<) 


ENDDO 
ENDDO 


注意 在 迭代 空间 的 变化 会 影响 I- 循 环 携带 的 依赖 一 一 在 例子 中 位 于 图 下 方 的 依赖 一 一 的 方 
向 向 量 。 为 了 使 得 左边 的 下 标 位 置 相等 ， 在 存储 中 使 用 的 I 的 值 必 须 比 右边 使 用 的 值 小 1。 当 
这 个 约束 被 传播 到 右边 的 下 标 位 置 时 ， 它 迫使 j 在 引用 中 的 值 比 在 存储 中 的 值 大 1， 使 得 两 个 
循环 的 方向 都 变 为 “<”。 用 A 记号 表示 即 为 : 

AI=1 和 j-I=j+A-I-AI 
因此 , Aj=AT=1 

映射 到 先 代 空间 的 新 形状 上 的 新 的 迭代 模式 如 图 5-17 所 示 ， 图 中 的 结 点 仍然 以 原来 循环 
中 的 索引 I 和 J 标记 。 

因为 两 个 循环 都 仍 携带 依赖 ， 所 以 到 目前 为 止 仍 不 清楚 循环 倾斜 除了 使 单纯 的 读者 感到 
迷惑 之 外 还 做 了 些 什么 。 然 而 ， 请 注意 现在 外 层 循 环 携带 的 依赖 是 交换 敏感 的 〈 图 中 对 角 线 
方向 的 依赖 )， 从 而 可 以 这 样 生成 一 个 并 行 循环 : 交换 两 个 循环 ， 把 所 有 的 依赖 移 到 新 的 外 层 
循环 中 ， 留 下 没有 依赖 的 内 层 循环 。 经 过 循环 交换 后 例子 变 成 
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j = 2 j-3 j = 4 j = 5 
图 5-17 循环 倾斜 后 的 依赖 模式 


DO j = 2, N+N 
DO I = max(1,j-N), min(N, j-1) 
ACI, j-1) = A(I-1,j-I) + A(I,j-I-1) 
ENDDO 
ENDDO 


例子 中 循环 交换 后 的 循环 界 是 很 典型 的 由 循环 倾斜 和 循环 交换 产生 的 循环 界 ; 倾斜 的 循 
环 产 生 梯 形 的 选 代 空间 ， 这 种 空间 在 循环 交换 后 生成 复杂 的 循环 界 。 对 这 一 形式 的 循环 应 用 
codegen， 得 到 如 下 的 向 量 代码 : 

DO j = 2, N+N 

FORALL (I=max(1,j-N),min(N, j-1)) 
ACI, j-I) = ACI-1,j-1) + AQ, j-I-1) 
END FORALL 

ENDDO 
这 里 FORALL 语 句 是 需要 的 ， 因 为 向 量 语句 无 法 直接 用 三 元 组 记号 表示 。 

虽然 这 个 例子 中 通过 循环 倾斜 得 到 的 向 量化 可 能 会 提高 性 能 ， 但 这 种 形式 的 向 量 代码 存 
在 某 些 缺 点 。 主 要 的 缺点 是 变化 的 向 量 长 度 一 一 向 量 长 度 从 1 开始 变 到 N， 然 后 又 回 到 1， 平 均 
的 长 度 为 N/2。 如 果 向 量 的 开始 时 间 很 大 而 N 很 小 ， 那 么 这 种 向 量 形式 很 容易 运行 得 比 标量 程 
序 还 慢 。 另 一 个 缺点 是 向 量 界 在 外 层 循 环 的 每 次 欠 代 都 必须 重新 计算 。 

为 了 在 更 一 般 的 形式 下 应 用 循环 倾斜 ， 假 定 我 们 有 一 个 循环 媒 套 ，、 其 I 索引 的 外 层 循环 和 
J 索引 的 内 层 循 环 都 已 正规 化 。 我 们 希望 倾斜 内 层 循环 使 内 层 循环 位 置 携带 依赖 的 距离 比 原来 
循环 大 k。 为 此 ， 我 们 引信 一 个 新 的 内 层 循环 索引 : 

j=J+k*I (5-1) 

并 且 对 循环 做 变换 以 使 用 这 个 值 。 这 意味 着 循环 界 必 须 被 改变 并 且 原 循环 中 J 的 实例 要 被 替换 为 
表达 式 J=k*I 的 实例 。 这 个 变换 的 安全 性 可 由 如 下 事实 得 出 : 我 们 并 没有 改变 任何 计算 顺序 一 一 
我 们 只 是 重新 标注 迭代 空间 。 把 证 明 这 个 变换 可 以 在 方向 向 量 上 得 到 所 需要 的 效果 留 作 习题 。 
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相对 于 循环 I 以 因子 k 倾 斜 循环 J 的 效果 是 改变 循环 J 的 依赖 距离 。 特 别 是 ， 如 果 一 个 依赖 
相应 于 循环 I 的 距离 为 AI 而 相应 于 循环 J 的 距离 为 AJ， 且 这 两 个 距离 在 整个 循环 上 都 是 常数 ， 
那么 在 倾斜 后 内 层 循 环 的 依赖 距离 就 是 

Aj = AI 二 k*AI (5-2) 

为 看 出 这 一 点 ， 令 让 (I,) 是 在 依赖 的 源 点 的 〈 多 维 ) 下 标 表 达 式 而 fp(1,J) 是 在 汇 点 的 下 

标 表 达 式 。 我 们 知道 
AA, I= + AI, J+ Ad) 
在 等 式 的 两 边 用 j-k*I 替 换 J， 得 到 
fi(l,j-—k#1)=f(1+ Al, j —k*#I —k*AI + Aj) 
但 是 因为 该 距离 对 I 和 J 的 各 个 值 是 一 致 的 ， 我 们 即 知 有 的 第 二 个 参数 和 有 的 第 二 个 参数 之 差 必 
然 是 人。 这 样 就 有 
AJ = Aj — Kk*AI 

由 此 式 立 即 可 得 式 (5-2)。 

A (5-2) 告诉 我 们 循环 倾斜 可 以 用 于 从 两 个 都 携带 依赖 的 循环 中 产生 一 个 无 依赖 的 循环 ， 
只 要 所 有 的 依赖 距离 是 一 致 的 。 为 此 ， 使 用 本 节 前 面 描述 的 方法 一 一 相对 于 外 层 循环 倾斜 内 
层 循 环 ， 使 得 外 层 循 环 携带 的 依赖 在 内 层 循环 位 置 上 的 距离 至 少 是 1。 如 果 外 层 循环 携带 的 某 
些 依赖 在 相应 于 内 层 循 环 的 位 置 上 以 负 距 离开 始 ， 则 可 能 需要 以 一 个 较 大 的 常数 倾斜 。 一 旦 
内 层 循 环 的 所 有 依赖 距离 都 是 正 的 ， 即 可 将 其 交换 到 外 层 循 环 ， 而 它 将 会 携带 所 有 的 依赖 ， 
使 得 新 的 内 层 循环 可 以 被 并 行 化 。 用 一 个 最 后 的 例子 将 说 明 其 复杂 性 : 

DOI=1,N 

DOJ=1,N 
A(I,J) = ACI-1,0) + A(I,J-1) + A(I-1,J+1) 


ENDDO 
ENDDO 


这 个 例子 与 本 节 开 始 时 的 例子 的 不 同 之 处 在 于 它 右 边 增 加 第 三 个 引用 ， 它 导致 一 个 方向 向 量 
为 (<,>) 和 距离 向 量 为 (1,-1) 的 依赖 。 为 了 使 循环 倾斜 后 的 外 层 循环 和 内 层 循 环 可 以 交换 ， 我 
们 必须 以 因子 2 倾斜 以 使 这 第 三 个 依赖 的 距离 在 对 应 于 J 的 位 置 上 是 正 数 。 
DOI=1,N 
DO j = 261+1,2*I4N 
ACL, j-241) = ACI-1, 5-241) + ACI, j-2*1-1)$ + ACI-1,j-2*1+1) 
ENDDO 
ENDDO 


如 我 们 已 经 看 到 的 那样 ， 循 环 倾斜 不 是 没有 代价 的 。 由 此 变换 得 到 的 循环 是 高 度 梯 形 化 
的 。 这 样 一 个 不 规则 的 循环 在 向 量 机 上 导致 的 代价 最 高 ; 它们 在 异步 多 处 理 器 上 引起 的 问题 
则 较 小 。 然 而 ， 即 使 在 那些 体系 结构 上 ， 应 用 循环 倾斜 也 必须 小 心 以 避免 过 大 的 负载 不 平衡 。 
5.10 各 种 变换 的 集成 

本 章 介 绍 了 若干 用 于 发 现 或 提高 并 行 性 的 变换 : 循环 交换 ， 标 量 扩展 ， 标 量 重 命名 ， 数 
组 重 命名 ， 结 点 分 裂 ， 归 约 识别 ， 索 引 集 分 裂 ， 符 号 解析 ， 以 及 循环 倾斜 。 有 这 样 为 数 众多 
的 变换 的 好 处 是 为 发 据 并 行 性 提供 多 种 选择 。 不 利 的 一 面 是 ， 在 这 么 多 的 选择 中 找 出 正确 的 
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变换 是 一 项 十 分 复杂 的 工作 ， 如 果 要 将 变换 选择 的 过 程 自动 化 就 更 困难 了 。 在 选择 变换 时 ， 
至 少 有 两 点 是 必须 要 考虑 的 : 确保 所 选择 的 变换 确实 使 得 程序 相对 于 其 原来 的 形式 有 所 改进 ， 
以 及 确保 选择 的 变换 不 会 和 其 他 对 程序 有 更 大 好 处 的 变换 有 冲突 或 者 相互 干涉 。 

关于 第 一 个 问题 ， 本 章 中 给 出 了 很 多 例子 。 儿 乎 对 每 种 变换 ， 我 们 都 是 从 两 个 方面 来 处 
理 的 : 确定 何 时 变换 是 安全 的 以 及 确定 何 时 变换 是 有 利 的 。 安 全 性 问题 总 是 可 以 明确 地 回答 。 
但 另 一 个 方面 ， 回 答 有 利 与 否 的 问题 却 要 困难 一 些 ， 因 为 确定 最 有 利 的 变换 常常 需要 解 一 个 
NP 完全 问题 。 

不 过 ， 对 于 向 量 机 ， 总 是 可 以 找到 一 个 关于 有 利 性 的 明确 的 测试 : 即 选 择 导致 最 多 向 量 
化 的 变换 。 这 可 以 通过 执行 变换 来 确定 一 一 最 好 只 是 在 依赖 图 上 进行 ， 但 如 果 必 要 也 可 以 在 
程序 上 进行 一 一 并 且 把 依赖 图 重 划分 为 强 连 通 区 域 。 抽 象 地 说 ， 较 多 的 向 量化 总 是 较 好 的 。 
然而 实际 上 上 上， 真实 机 器 的 体系 结构 总 有 一 些 问题 领域 ， 很 难 确定 变换 (一 些 例子 见 5.11 节 )。 

第 二 个 问题 一 一 避免 变换 间 的 相互 干扰 一 一 则 更 加 复杂 。5.6 节 有 一 个 这 种 干扰 的 例子 
过 早 插 人 的 一 个 求 和 归 约 阻碍 了 循环 交换 。 此 外 有 大 量 与 循环 倾斜 有 关 的 干扰 的 例子 : 5.9 节 
关于 循环 交换 的 复杂 性 就 是 一 个 非常 好 的 例子 。 

我 们 用 下 面 的 简单 求 和 归 约 作为 最 后 的 例子 ， 说 明 为 什么 过 于 简单 的 程序 变换 方法 是 不 
可 行 的 : 

DOI=1,N 

S=S+AI) 

ENDDO 
在 这 个 形式 下 ， 这 个 循环 很 容易 归 约 为 一 个 求 和 归 约 调用 ， 这 在 任何 体系 结构 上 都 应 该 是 最 
优 的 。 然 而 ， 一 个 过 于 简单 的 编译 器 可 能 会 在 进行 归 约 识别 之 前 尝试 标量 扩展 (尽管 5.3 节 将 
说 明 这 一 扩展 是 没有 意义 的 )， 产 生 如 下 的 代码 : 

S$(0) = 5 

DO I=1, N 

S$(I) = S$(I-1) + A(T) 

ENDDO 

S = S$(N) 

这 个 循环 仍然 是 一 个 归 约 ， 但 是 ， 要 识别 出 它 是 一 个 求 和 归 约 就 困难 多 了 。 在 这 种 形式 
下 ， 它 更 有 可 能 被 当 作 一 个 简单 的 线性 递归 并 被 一 个 求解 例 程 替换 。 虽 然 这 种 结果 比 标量 代 
码 好 些 ， 但 是 不 如 直接 用 一 个 求 和 归 约 替换 高 效 。 

在 开发 一 个 算法 将 所 有 的 变换 集成 起 来 时 ， 有 两 点 必须 要 考虑 : 首先， 任何 生成 高 效 代 
码 的 方法 必须 以 全 局 的 观点 看 待 被 变换 的 代码 ， 而 不 仅仅 从 局 部 去 看 。 也 就 是 说 ， 仅 就 一 个 
循环 来 考虑 某 个 变换 是 否 最 有 效 是 很 困难 的 (如 果 不 是 不 可 能 的 话 )。 为 确定 这 一 点 ， 至 少 需要 
考虑 整个 循环 能 套 。 下 面 的 例子 是 关于 所 需 的 范围 的 类 型 : 

DOI=1,M ` 

DOJ=1, N 
A(I,J) = A(I-1,J~1) + B(INDEX(I),J) 
ENDDO 
ENDDO 


循环 交换 可 以 用 于 向 量化 其 中 一 个 循环 ， 但 不 能 两 个 都 向 量化 一 一 其 中 一 个 必须 以 标量 形 
式 执行 。 当 只 考虑 其 中 一 个 循环 时 ， 变 换算 法 很 容易 确定 这 个 循环 能 否 被 向 量化 。 然 而 ， 很 难 
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确定 向 量化 一 个 循环 将 妨碍 另 一 个 循环 的 向 量化 。 在 这 个 例子 中 ， 虽 然 I- 循 环 的 跨 距 是 1， 但 
向 量化 J- 循 环 更 为 有 利 ， 因 为 向 量化 I- 循 环 所 需 的 B 上 的 收集 操作 在 大 多 数 机 器 上 都 是 低 效 的 。 

这 一 原则 可 以 很 好 地 扩展 到 向 量 机 以 外 的 体系 结构 上 。 从 全 局 的 观点 来 决定 最 优 代码 的 
生成 是 相当 困难 的 ; 但 车 纯粹 从 局 部 的 观点 看 则 完全 不 可 能 。 

其 次 ， 对 于 一 个 给 定 的 程序 ， 决 定 哪 种 变换 最 好 需要 目标 机 体系 结构 的 知识 。 在 一 个 高 度 
并 行 的 机 器 上 ， 例 如 Connection Machine， 发 据 所 有 可 能 的 并 行 性 是 最 基本 的 ， 必 须 着 眼 于 对 
程序 进行 变换 以 建立 尽 可 能 多 的 并 行 循环 。 在 较 少 并 行 性 的 体系 结构 上 ， 例 如 单 处 理 器 的 超 
标量 体系 结构 ， 选 择 一 个 合适 的 并 行 循环 远 比 生成 大 量 并 行 循环 重要 。 因 此 ， 以 同一 种 策略 
将 程序 变换 集成 起 来 是 不 可 能 同时 满足 两 个 极端 (或 其 间 的 大 多 数 ) 的 体系 结构 的 需求 的 。 

为 了 说 明 全 局 变换 中 所 涉及 的 一 些 原 则 ， 本 节 考 察 一 个 为 向 量 寄存 器 体系 结构 而 调整 过 
的 算法 。 为 了 说 明 方 便 起 见 ， 这 些 体系 结构 适合 于 处 理 中 等 程度 的 并 行 性 ， 其 好 处 较 易 确定 
且 易 于 以 Fortran 90 的 向 量 操 作 在 源 代码 级 表示 出 来 。 我 们 假定 主要 的 目标 是 找 出 一 个 好 的 向 
量 循环 ; 向 量化 其 他 循环 的 好 处 太 小 ， 不 值得 花 那个 代价 。 这 一 假设 对 于 目前 大 部 分 商用 的 
向 量 寄存 器 体系 结构 来 说 都 是 正确 的 。 

给 定 目标 体系 结构 ， 从 标量 源 程 序 生 成 向 量 代码 的 过 程 可 以 自然 地 分 为 三 个 阶段 : 

(1) 检测 : 找 出 每 条 语句 都 可 以 向 量 方式 执行 的 所 有 循环 。 

(2) 选择 : 从 每 条 语句 都 可 以 用 向 量 方式 执行 的 所 有 可 能 候选 循环 中 选 出 最 佳 的 。 

(3) 变换 : 对 选 定 的 循环 执行 向 量化 所 需 的 变换 。 

这 一 策略 很 适合 本 章 所 介绍 的 变换 。 检 测 阶段 涉及 修改 依赖 图 以 反映 所 有 可 能 的 变换 ， 
而 不 必 在 程序 上 执行 它们 。 因 为 这 里 描述 的 变换 只 会 提高 并 行 性 (没有 变换 会 阻碍 并 行 性 )， 以 
这 种 方式 修改 依赖 图 不 会 造成 不 良 影响 。 选 择 阶段 则 是 与 机 器 高 度 相关 的 ， 并 且 涉 及 到 详细 
的 下 标 和 循环 分 析 。 最 终 的 变换 阶段 使 用 原来 的 依赖 图 来 驱动 所 需 的 对 程序 的 修改 以 得 到 最 
佳 的 向 量 循环 。 

图 5-18 的 过 程 mark_loop 给 出 对 检测 阶段 的 更 为 详细 的 描述 。 这 个 算法 从 依赖 图 中 删除 可 
以 被 标量 扩展 、 数 组 重 命名 、 节 点 分 裂 和 符号 解析 消除 的 所 有 依赖 。 循 环 交 换 的 处 理 方法 是 
搜索 不 携带 依赖 的 循环 。 索 引 集 分 裂 和 循环 倾斜 作为 最 后 的 手段 一 一 在 没有 其 他 的 向 量化 机 
会 时 才 使 用 它们 。 归 约 在 标记 过 程 中 识别 ， 因 为 它们 在 循环 分 布 后 最 容易 发 现 。 

procedure mark_loop(S, D) 

I! mark_loop 对 一 个 语句 集合 5 和 相应 的 依赖 图 D (其 中 标 出 了 所 有 的 可 删除 边 ) 在 

1// 所 有 可 能 向 量 语 旬 上 标记 所 有 循环 

for each 可 以 通过 数组 重 命名 ， 标 量 重 命名 ， 节 点 分 裂 或 者 符号 处 理 可 删除 的 边 e do begin 

把 e 加 入 deletable_edges; 
从 DD 中 删除 e; 


end 


mark_gen(S, 1, D); 


for each 没 有 向 量 循环 标记 的 5 中 的 诸 句 x do 

尝试 索引 集 分 裂 和 循环 倾斜 ， 标 记 找 到 的 向 量 循 坏 ; 
for each deletable_edges 中 的 边 e do 

把 e 重 新 放 回 到 D 中 ; 


end mark_loop 





图 5-18 向 量 循环 检测 
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在 依赖 图 上 作 了 这 些 改 动 之 后 ， 我 们 将 调用 codegen 的 一 个 变 体 ， 称 为 mark_gen (WA 
5-19)。 然 而 ，mark_gen 只 是 简单 地 为 检测 到 的 向 量 循 环 和 所 有 相关 的 语句 加 上 标记 ， 并 不 
生成 向 量 代码 或 执行 循环 交换 。 


procedure mark_gen(S, k, D) 
在 依赖 图 D 中 仅 限于 区 域 K 的 范围 内 找 出 最 大 强 连 道 区 域 集合 {51, So, Sm) (使 用 Tarjan 算 法 ); 
for i= Í to m do begin 
if SHH then 
证 最 外 层 的 携带 依赖 在 层 p > k then begin 
对 所 有 在 5; 中 的 语句 标记 所 有 在 层 k,k+ 1,.…,p 一 1 的 循环 为 向 量 ; 
mark_gen(S;, p, Di) 
end 
else if $ 是 一 个 归 约 then begin 


为 5 标记 循环 k 为 向 量 ; 


标记 5 中 的 语句 为 层 # 的 归 约 ; 


end 


else begin 
设 D; 是 依赖 图 D 中 ww 范围 内 所 有 在 k 野 或 大 于 k 层 上 的 依赖 边 组 成 的 依赖 图 
mark_gen(S,;,k +1, Dj); 

end 

else 
为 在 上 和 更 深层 嵌 套 的 循环 8 中 的 语句 标记 为 向 量 
end 
end mark_gen 





图 5-19 标记 向 量 循环 和 语句 的 codegen 的 变形 


这 一 过 程 使 用 简单 的 循环 移动 作为 其 交换 和 策略。 不过， 容易 对 其 加 以 修改 ， 采 用 像 图 5-4 
介绍 的 那样 更 为 复杂 的 循环 选择 启发 式 方 法 。 

全 局 代码 生成 算法 的 第 二 个 阶段 ， 从 一 条 语句 所 有 可 能 的 向 量 循环 中 选 出 最 佳 的 向 量 循 
环 。 这 个 阶段 按照 一 些 机 器 相关 的 标准 ， 例 如 5.11 节 讨论 的 标准 ， 对 每 条 语句 作 局 部 的 检查 。 
然而 ， 一 些 非 局 部 的 分 析 对 于 保证 在 应 用 变换 方面 的 一 致 性 是 必要 的 。 例 如 ， 在 标量 扩展 中 ， 
单个 标量 必须 为 每 个 重 命名 的 划分 跨越 相同 循环 进行 扩展 。 尽 管 把 循环 

DOI=1,M 

DOJ=1,N 
T = A(I,d) + B(I,J) 
C(I,I) = T + B(J,T) 


ENDDO 
ENDDO 
扩展 为 下 面 的 形式 可 能 有 吸引 力 ( 它 通过 建立 跨 距 为 1 的 访问 对 单独 的 语句 产生 最 大 化 结果 ): 
DO I =1, M 
00 J=1,N 


T$(I) = A(I,J) + B(I,J) 
C(J,1) = T$(J) + B(J,I) 
ENDDO 
ENDDO 


但 结果 显然 是 不 正确 的 。 如 果 只 是 单独 考察 这 些 语句 而 设 有 全 局 的 观点 ， 很 容易 出 现 这 种 类 
型 的 代码 结果 。 
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一 旦 对 每 条 语句 找到 了 一 个 最 佳 向 量 循环 的 一 致 集合 ， 剩 下 的 任务 就 是 在 程序 中 执行 变 
换 一 一 换 名 话说， 使 程序 对 应 于 依赖 图 。 依 赖 图 提供 一 种 简单 的 机 制 ， 可 有 效 地 发 现 一 种 简 
单 的 路 径 以 识别 用 来 向 量化 所 选择 的 循环 的 正确 变换 。 原 来 的 依赖 图 被 恢复 ( 即 那些 可 以 删除 
的 边 被 恢复 )， 然 后 codegen 被 再 次 调用 。 一 旦 codegen 找 到 一 个 没有 向 量化 的 “最 佳 向 量 ”循环 ， 
它 就 知道 必须 调用 一 个 变换 。 由 于 所 需 的 变换 已 知 ， 那 些 确定 潜在 的 程序 变换 的 边 很 容易 在 这 
个 过 程 中 找到 。 因 此 ，codegen 可 以 有 效 地 寻找 能 够 产生 所 需 结果 的 正确 的 变换 集合 。 图 5-20 和 
图 5-21 详 细 描 述 实现 这 一 过 程 的 codegen 版 本 。 它 一 开始 在 最 外 层 循 环 被 调用 。 如 果 它 返回 时 没 
有 生成 向 量 代码 ， 但 最 佳 向 量 循环 已 被 标 出 ， 那 么 就 必须 进行 循环 倾斜 或 者 索引 集 分 裂 。 


procedure transform_code(R, k, D) 
HERED HR ERAH Be RE EA S, So... Sn) (使 用 Tarjan 算 法 ) 
通过 把 8 归 约 为 单个 的 节点 ， 从 有 R 构 造 Re ， 然 后 自然 地 根据 忆 从 R. 推 导出 来 的 依赖 图 HRD, 
BELT, mo, …, 7tw} 是 R, 的 m 个 节点 ， 它 们 按照 某 种 顺序 排列 (使 用 拓扑 排序 以 计数 ) 
fori=1tomdo 
fk 是 Tw 中 某 些 庄 句 最 好 的 向 量 人 循环 then 
if «3244 Athen begin 
select_and_apply_transformation(n,, k, DY, 
// 重 试 在 新 依赖 图 上 的 向 量化 
transform_code(m;, k, D); 
end 
else 
为 循环 人 中 的 落成 一 个 向 量 语句 
else begin 
生成 一 个 k 层 DO 语句 
设 忆 为 依赖 图 局 中 仅 限 于 于 范围 内 在 层 K+ 1 以 及 大 于 上 + 1 上 所 有 依赖 边 组 成 的 依赖 图 
transform_code(n;,k+1, Dj); 
生成 层 k 的 ENDDO 语 句 ; 
end 





end transform_code 
图 5-20 程序 变换 的 驱动 程序 


procedure select_and_apply_transformation(x,, k, D) 
并 循环 k 不 携带 元 内 的 依赖 then 
移动 循环 k 到 最 内 层 的 位 置 ; 
else if x 在 Kk 层 是 归 约 then 
用 归 约 替换 并 且 把 和 归 约 相连 的 边 消除 掉 
else // 变换 并 调整 依赖 
并 数组 重 命名 是 可 能 的 then 
应 用 数组 重 命名 并 调整 依赖 关系 ， 在 需要 的 地 方 使 用 结 点 分 烈 ; 


else 如 果 结 点 分 裂 是 可 能 的 then 
应 用 结 点 分 裂 并 调整 依赖 关系 ; 
else if 标 量 扩展 是 可 能 的 then 
应 用 标量 扩展 并 且 调 整 依赖 关系 ; 
else 
应 用 倾斜 或 素 引 集 分 裂 并 调整 依赖 关系 ; 


end select_and_apply_transformation 





图 5-21 变换 的 选择 





5.11 实际 机 器 的 复杂 性 

向 量 代码 生成 的 选择 阶段 决定 最 佳 向 量 循环 ， 这 个 阶段 看 起 来 可 能 是 最 简单 的 ， 实 际 上 ， 
它 是 较为 困难 的 过 程 之 一 ， 因 为 它 必须 考虑 目标 机 器 的 体系 结构 。 当 为 细 粒 度 并 行 的 机 器 生 
成 代码 时 ， 重 要 的 是 保证 在 最 内 层 循 环 选 择 的 操作 和 可 用 的 功能 部 件 匹 配 。 当 为 粗 粒 度 多 处 
理 器 生成 代码 时 ， 保 证 并 行 分 解 能 提供 足够 的 计算 以 克服 同步 的 开销 且 保持 负载 平衡 则 是 一 
个 困难 的 问题 。 

由 于 有 这 些 问题 ， 你 可 能 认为 向 量 机 是 最 简单 的 目标 机 ， 而 且 前 一 节 的 简短 讨论 已 覆盖 
了 这 个 题目 。 但 实际 上 正 相 反 ; 确定 最 佳 向 量 循环 (甚至 只 是 保证 在 向 量化 以 后 执行 得 更 快 
的 循环 ) 是 一 个 非常 困难 的 问题 。 本 节 提 出 试图 为 某 个 特定 的 机 器 确定 最 佳 向 量 循环 时 必须 
考虑 的 一 些 问 题 。 当 面 对 真 实 而 非 理想 的 机 器 时 ， 这 些 问 题 都 是 很 典型 的 。 

内 存 跨 距 访问 ”体系 结构 设计 中 很 难 达到 的 一 个 平衡 是 CPU 性 能 和 内 存 性 能 之 间 的 平衡 。 
这 一 平衡 的 问题 在 向 量 机 中 尤为 坏 手 ， 因 为 高 度 流 水 线 的 CPU 在 完成 向 量 操作 的 过 程 〈 可 能 
较 长 ) 中 的 每 个 时 钟 周期 内 都 会 需要 操作 数 。 速 度 快 到 能 够 满足 这 样 的 CPU 的 内 存 部 件 远 比 
CPU 昂贵 ， 很 难 让 人 认为 那 是 值得 的 ， 因 为 向 量 机 器 要 执行 的 远 不 仅 是 向 量 访 存 操作 。 

为 了 避免 导致 过 高 的 代价 ， 系 统 设计 者 通常 使 用 比 CPU 慢 一 些 的 存储 部 件 ， 但 是 它们 被 
设计 为 能 够 在 大 多 数 操作 上 提供 与 CPU 相同 的 速度 。 两 个 标准 的 体系 结构 特性 是 多 体 存储 器 
和 预 取 。 多 体 存储 器 将 所 有 的 内 存 划分 为 一 些 体 (通常 是 2 的 较 小 的 寡 一 一 8 或 16 是 常见 的 )。 
单个 体内 的 访问 需要 的 时 间 多 于 一 个 周期 ， 但 是 对 多 个 体 的 访问 可 以 重 倒 ,在 启动 延迟 之 后 
即 可 每 个 周期 提供 一 个 操作 数 ( 和 流水 线 功 能 部 件 的 工作 方式 基本 相同 )。 当 然 ， 只 有 在 连续 的 
访问 是 到 不 同 的 体 时 ， 才 能 维持 这 样 的 访问 速率 ; 重复 访问 相同 的 内 存 体会 导致 类 似 于 流水 
线 的 互 锁 问题 ， 且 同样 会 导致 内 存 访问 速率 的 下 降 。 由 于 连续 的 内 存 地 址 通常 是 以 巡 远 的 方 
式 分 配给 不 同 的 体 〈( 即 地 址 x* 分 配 到 体 0， 地 址 x+ 1 分 配 到 体 1， 依 此 类 推 )， 跨 距 为 1 的 访问 在 
这 样 - -个 系统 上 肯定 有 较 好 的 效果 ， 因 为 连续 的 内 存 访问 肯定 是 到 不 同 的 体 上 的 。 另 一 方面 ， 
跨 距 等 于 体 的 大 小 的 向 量 访 癌 的 性 能 将 会 很 差 ， 因 为 重复 访问 同一 个 内 存 体 。 在 一 个 以 这 种 
方式 使 用 内 存 体 的 系统 上 ， 在 向 量化 操作 时 避免 体 冲 突 是 非常 关键 的 。 注 意 跨 距 为 1 的 访问 并 
不 总 是 能 避免 体 冲 突 ; 如 果 内 存 是 沿 字 边界 来 划分 体 的 ， 则 对 半 字 元 素 的 向 量 访问 在 跨 距 为 2 
时 性 能 会 更 好 。 

采用 硬件 预 取 时 ， 对 某 个 特定 字 的 访问 会 使 得 后 续 的 一 些 字 也 被 访问 。 当 向 量 跨 距 为 1 时 ， 
这 一 技术 自动 地 把 后 边 的 一 些 操作 数 从 内 存 取出 ， 使 得 处 理 单 元 可 以 全 速 执 行 。 在 跨 距 不 等 
于 1 时 ， 预 取 就 不 是 那么 有 效 了 ， 因 为 仅 有 部 分 (或 没有 ) 预 取 的 操作 数 被 用 到 。 当 选择 最 优 的 
向 量 循环 时 ， 从 预 取 的 角度 ， 肯 定 倾向 于 较 小 的 向 量 跨 距 。 

分 散 -收集 ”一 个 和 跨 距 密切 相关 的 内 存 因素 是 分 散 -收集 操作 。 收 集 出 现在 程序 使 用 一 
个 索引 向 量 将 稀 足 的 操作 数 收集 到 一 起 的 时 候 ， 例 如 在 


DOI=1,N 
ACI) = B(INDEX(I)) 
ENDDO 


中 。 类 似 地 ， 一 个 分 散 操作 把 压缩 的 操作 数 散布 到 未 压缩 的 内 存单 元 中 去 : 


DOI=1,N 
ACINDEX(1)) = B(I) 
ENDDO 
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因为 收集 和 分 散 都 涉及 到 变化 的 、 未 知 的 跨 距 ， 它 们 总 是 比 直接 的 内 存 访问 效率 低 一 些 ， 
由 于 同样 的 原因 不 等 于 1 的 跨 距 也 会 引起 问题 。 分 散 - 收 集 在 科学 计算 代码 中 是 很 常见 的 ， 因 
此 向 量化 这 样 的 结构 是 很 重要 的 ; 然而 ， 也 应 认识 到 ， 即 使 是 向 量化 了 的 分 散 和 收集 循环 ， 
通常 也 要 比 直接 内 存 访问 的 执行 效率 低 很 多 。 

循环 长 度 所 有 向 量 部 件 在 一 开始 注 满 流 水 线 时 都 会 导致 一 些 开 销 ， 相 应 地 需要 有 一 定数 
量 的 操作 以 使 分 段 执行 的 加 速 比 能 超过 启动 开销 。 向 量化 的 循环 越 长 ( 当 只 有 一 个 循环 被 向 量 
化 时 )， 向 量 部 件 就 越 能 够 有 效 地 分 摊 启 动 开销 。 当 循环 长 度 在 编译 时 间 爹 部 已 知 时 (这 种 情 
况 很 少 出 现 )， 编 译 器 就 可 以 估计 每 个 循环 的 向 量化 效率 。 当 循环 界 是 符号 表达 式 时 ， 在 循环 
长 度 与 步 长 和 其 他 参数 之 间作 出 折 中 是 非常 困难 的 。 如 果 程 序 员 不 提供 共 他 的 输入 ， 编 译 器 
通常 必须 假定 所 有 具有 未 知 界 的 循环 对 于 有 效 的 向 量 执行 来 说 足够 长 。 这 一 假设 会 在 很 多 领 
域 导 致 非常 令 人 不 快 的 低 效率 。 例 如 ， 图 形 程序 通常 有 长 度 为 4 的 循环 ; 物理 学 和 化 学 的 代码 
通常 的 循环 长 度 为 3 (xz*，y，z 方 向 各 为 1)。 当 这 样 的 程序 被 简单 地 向 量化 以 后 ， 生 成 的 变换 
过 的 代码 通常 运行 比 原先 的 程序 慢 很 多 。 

操作 数 重用 优化 内 存 访问 的 最 优 方 法 是 最 小 化 内 存 访 问 的 数量 。 向 量化 以 使 操作 数 可 在 
寄存 器 中 被 重用 是 实现 这 一 目标 的 一 个 显然 的 方法 。 本 章 给 出 了 一 些 基于 这 种 考虑 的 例子 ; 
在 第 8 章 和 第 13 章 会 有 更 多 例子 。 

不 存在 的 向 量 操作 不 是 所 有 的 算术 操作 都 可 以 有 效 地 分 段 ， 也 不 是 所 有 的 体系 结构 都 会 
为 所 有 的 指令 提供 向 量 版 本 的 支持 。 很 难 用 流水 线 的 算术 操作 的 一 个 常见 的 例子 是 浮 点 除法 。 
浮 点 除法 是 一 条 复杂 的 指令 ， 需 要 基本 指令 序列 的 很 多 个 迭代 才能 完成 。 因 为 这 个 迭代 的 过 
程 ， 除 法 在 向 量化 时 很 少 加 速 ， 因 此 很 多 体系 结构 都 不 浪费 指令 位 去 支持 向 量化 的 除法 。 因 
而 向 量化 一 个 执行 向 量 除法 的 循环 就 成 为 编译 器 必须 仔细 考虑 的 问题 。 在 下 面 例子 

DO I=1, M 

DOJ =1, N 
A(I,J) = B(J) / C(I) 
ENDDO 

ENDDO 
中 ， 在 大 多 数 机 器 上 不 考虑 步 长 和 内 存 的 因素 ，J- 循 环 是 首选 的 向 量 循环 。 当 J- 循 环 被 向 量 
化 以 后 ， 除 法 可 以 通过 计算 标量 倒数 并 将 除法 变 为 乘法 而 得 以 高 效 执行 〈 假 定 程序 员 愿 意 接 
受精 确 度 稍 差 的 结果 ): 

DOI=1,M 

= 1.0 / C(I) 
DO J = 1, N, 32 

ACI, d:d+31) = B(J:J+31) * T 
ENDD0 

ENDDO 
如 果 I- 循 环 被 向 量化 ， 绝 大 多 数 机 器 都 不 会 有 任何 加 速 。 

条 件 执行 ”向 量 部 件 持续 重复 相同 的 操作 ， 因 而 在 处 理 一 系列 规则 的 操作 数 时 性 能 最 优 。 
引入 条 件 语 句 〈 因 此 一 些 操 作 被 跳 过 ) 破坏 这 一 规则 性 ， 将 大 大 降低 向 量化 效率 。 大 多 数 疝 
量 部 件 能 够 通过 一 组 控制 单个 操作 结果 是 否 覆 盖 结 果 寄 存 器 的 掩 码 寄存 器 来 执行 条 件 操 作 。. 
然而 ， 掩 码 寄存 器 通常 不 允许 条 件 置 位 (就 是 说 ， 掩 码 寄 存 器 不 能 在 掩 码 寄 存 器 的 控制 下 置 
位 )， 因 此 只 能 支持 一 层 IF 嵌 套 。 即 使 只 是 一 层 的 条 件 执行 也 要 比 纯粹 的 向 量 执行 效率 低 ， 因 
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此 应 当 尽 量 避 免 。 这 样 ， 在 例子 
pO IT=1, ™ 
DO J=1, N 
IF (A(J) .GT. 0 ) THEN 
B(J,1) = B(J,I) + 1.0 
ENDIF 
ENDDO 
ENDDO 
中 ， 最 好 是 向 量化 I- 循 环 ， 因 为 它 可 以 被 变换 成 
DO J=1,N 
IF (ACJ) .GT. 0 ) THEN 
pO I=1, M 
B(J,1) = B(J,I) + 1.0 
ENDDO 
ENDIF 
ENDDO 
从 而 消除 了 向 量 流水 中 的 条 件 执行 。 
像 这 些 例 子 所 指出 的 那样 ， 即 使 是 选择 最 优 的 向 量 循环 这 样 似乎 很 简单 的 任务 其 实 也 并 
不 容易 。 当 这 个 任务 在 有 粗 粒度 并 行 性 (以 多 个 CPU 的 形式 ) 或 不 规则 的 细 粒 度 并 行 性 的 情况 下 
被 进一步 复杂 化 时 ， 编 译 器 的 任务 就 实在 是 非常 困难 了 。 
5.12 小 结 
本 章 所 发 展 的 理论 可 支持 很 多 基于 依赖 的 用 来 提高 程序 中 并 行 性 的 变换 。 这 些 面向 循环 
的 变换 ， 或 者 侧重 于 重新 安排 程序 以 求 得 到 更 好 的 并 行 性 ， 或 者 着 重 在 打破 依赖 环 来 创造 并 
行 性 : 
。 杭 环 交 换 ， 用 于 调节 循环 的 嵌 套 顺序 从 而 将 并 行 循 环 放 在 最 优 位 置 。 它 不 仅 对 于 向 量化 
而 且 对 于 本 书 中 介绍 的 大 多 数 方法 都 是 很 关键 的 。 因 为 串 行 执 行 外 层 循 环 会 使 得 内 层 循 
环 有 更 多 向 量化 的 可 能 性 ， 一 个 好 的 循环 交换 策略 的 要 点 在 于 选择 适当 的 外 有 野 循环 串 行 
执行 。 
。 标 量 扩展 ， 当 标量 瓶颈 限制 执行 顺序 时 ， 它 可 通过 把 标量 扩展 为 向 量 而 消除 依赖 ， 使 并 
行 成 为 可 能 。 代 价 是 额外 的 内 存 开销 。 l 
。 数 组 重 命名 、 标 量 重 命名 以 及 节点 分 裂 ， 也 通过 使 用 额外 的 内 存 来 删除 依赖 。 
。 归 约 在 很 多 代码 中 是 很 重要 的 一 部 分 ， 使 得 妇 约 识别 成 为 任何 先进 编译 器 的 一 个 完整 的 
组 成 部 分 。 . 
。 索 引 集 分 裂 、 符 号 解析 以 及 循环 倾 针 ， 是 应 用 于 特殊 情况 的 另外 一 些 暴露 并 行 性 的 技术 。 
这 些 变换 必须 在 考虑 到 可 能 应 用 于 同一 个 循环 嵌 套 的 其 他 操作 的 情况 下 小 心地 使 用 ， 以 
确保 得 到 最 大 限度 的 并 行 性 。 本 章 介绍 一 个 向 量 机 上 这 些 变换 的 驱动 过 程 。 这 一 过 程 包括 三 
个 阶段 : 确定 可 以 被 向 量化 的 循环 ， 选 择 应 被 向 量化 的 最 优 循环 ， 变 换代 码 来 向 量化 选择 的 
循环 。 作 为 结束 ， 本 章 最 后 讨论 在 真实 的 向 量 机 上 为 每 条 语句 选择 最 优 向 量 循环 时 需要 考虑 
的 一 些 问题 。 


5.13 实例 研究 
因为 向 量化 是 PFC 系统 和 Ardent Titan 编 译 器 的 一 个 主要 侧重 点 ， 本 节 将 详细 讨论 它们 的 
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能 力 。 此 外 ， 关 于 PFC 和 一 些 商用 编译 器 在 处 理 一 组 用 于 测试 向 量化 覆盖 宽度 的 循环 时 的 表 
现 ， 本 节 给 出 一 些 研究 结果 。 
5.13.1 PFC 

由 作者 在 Rice 大 学 开发 的 PFC 系统 ， 使 用 图 5$-2 和 5-3 的 循环 移动 策略 来 向 量化 代码 。 如 果 
codegen 在 到 达 最 内 层 循环 时 还 未 找到 任何 向 量化 的 机 会 ， 它 将 尝试 对 最 内 层 的 两 个 循环 作 通 
常 的 循环 交换 。 这 一 方法 可 以 通过 在 依赖 边 上 设置 一 个 属性 一 一 即 是 否 阻 止 和 下 一 个 内 层 循 
环 的 交换 一 一 来 实现 ， 而 不 必 通 过 计算 和 检查 整个 方向 矩阵 。 这 一 属性 很 容易 在 依赖 测试 时 
通过 在 携带 循环 和 位 于 其 内 层 的 循环 上 寻找 显 式 的 方向 偶 “< ，> ”进行 计算 。 

为 了 暴露 更 多 的 向 量化 机 会 ，PFC 在 标量 扩展 、 标 量 重 命名 和 节点 分 裂 作 了 相当 完整 的 工 
作 。 它 使 用 了 较为 复杂 的 索引 集 分 裂 ， 包 括 国 值 分 析 、 交 又 国 值 以 及 循环 剥离 。 它 还 包括 一 
种 简单 形式 的 运行 时 解析 ， 但 没有 尝试 作 循 环 倾斜 和 数组 重 命名 。 

鉴于 PFC 生成 Fortran 90 而 不 是 任何 目标 机 的 代码 ， 因 此 它 没 有 包含 与 机 器 相关 的 考虑 。 
变换 的 选择 使 用 了 特殊 的 方法 。 确 切 地 说 ， 若 codegen 在 到 达 最 内 层 循环 时 仍 未 产生 任何 向 量 
化 ， 且 对 内 层 的 循环 进行 交换 也 于 事 无 补 ， 那 么 就 从 标量 扩展 开始 ， 按 照 特定 的 顺序 尝试 各 
PEH, LAKER I HOA o 
5.13.2 Ardent Titan 编 译 器 

在 Ardent Titan 上 的 向 量 寄存 器 文件 的 灵 话 性 允许 使 用 范围 很 广 的 一 组 向 量化 策略 。 在 一 
个 极端 ， 寄 存 器 可 以 被 当 作 4 个 长 度 为 2K 的 向 量 寄存 器 。 在 这 一 模式 下 ，Titan 本 质 上 可 以 是 
一 个 向 量 存储 机 ， 而 正确 的 策略 将 是 向 量化 尽 可 能 多 的 循环 以 建立 可 能 达到 最 长 的 向 量 操作 。 

另外 一 个 选择 更 加 合理 ， 并 且 人 允许 向 量 寄存 器 可 能 的 重用 一 一 这 是 4 个 向 量 寄存 器 所 不 允 
WRJ. Titan Ardent 编 译 器 把 向 量 寄存 器 文件 大 致 划分 为 64 个 长 度 为 32 的 向 量 寄存 器 。 这 个 
长 度 足 以 补偿 向 量 启 动 代价 ， 但 允许 更 大 量 的 寄存 器 重用 ， 且 给 操作 系统 留 下 一 些 空间 ， 使 
得 上 下 文 切换 更 为 有 效 。 

小 的 向 量 启动 代价 和 短 的 向 量 长 度 使 得 Titan 可 以 对 其 向 量化 策略 作 一 个 重要 的 简化 。 
Ardent 编 译 器 侧重 于 向 量化 一 个 循环 而 不 是 向 量化 尽 可 能 多 的 循环 。 这 里 有 几 个 理由 支持 这 
一 决策 : 

(1) 由 于 向 量 寄存 器 的 长 度 被 设 为 32， 有 很 大 的 可 能 性 只 需 向 量化 一 个 循环 就 能 提供 足 
以 充满 向 量 部 件 的 操作 。 . 

(2) 由 于 向 量 部 件 是 异步 的 ， 因 此 如 果 采 用 正确 的 编译 器 调度 ， 那 么 调度 大 量 小 的 向 量 
操作 可 以 和 发 出 一 个 长 的 向 量 操作 一 样 快 。 因 此 ，、 即 使 一 个 向 量化 的 循环 碰巧 没有 充满 向 量 
寄存 器 ， 也 不 会 有 太 大 的 性 能 损失 。 

(3) 仅 向 量化 一 个 循环 可 以 简化 很 多 表示 的 问题 。 当 仅 有 一 个 循环 被 向 量化 时 ， 所 得 到 
的 线性 化 向 量 操作 总 是 可 以 简单 地 用 一 个 三 元 组 表示 。 并 非 所 有 的 多 重 向 量化 的 循环 都 能 如 
此 ， 并 母 ， 选 定 一 个 循环 意味 着 优化 器 可 以 避免 为 了 确定 一 个 语句 是 否 可 以 在 多 个 循环 内 被 
正确 地 向 量化 而 作 的 很 多 代价 高 昂 的 分 析 。 

(4) 把 向 量化 限制 在 一 个 循环 内 可 以 大 大 简化 编译 时 许多 关于 最 优 循环 顺序 的 查找 问题 。 
很 多 涉及 向 量 循环 顺序 的 问题 有 相对 于 循环 个 数 的 指数 级 时 间 复 杂 度 。 尽 管 循环 嵌 套 通常 不 


日 ”由 于 标量 寄存 器 得 到 特别 处 置 ， 这 样 说 不 完全 真实 。 
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问题 。 这 些 问题 当 指数 限制 为 1 时 就 不 存在 了 。 

使 用 这 样 的 策略 ，Ardent 优 化 器 的 基本 的 出 发 点 就 变 成 选择 一 个 最 优 的 循环 进行 向 量化 ， 
而 不 是 向 量化 尽 可 能 多 的 循环 。 这 种 转变 导致 几乎 所 有 的 代码 生成 算法 的 改变 。 确 切 地 说 ， 
它 产生 了 在 5.10 节 描述 的 代码 生成 策略 。 

当时 的 一 个 顾 虚 是 把 向 量化 限制 在 一 个 循环 可 能 会 对 以 后 把 编译 器 移植 到 其 他 向 量 机 时 
产生 负面 影响 ， 但 是 实际 情况 证 明 不 是 这 样 。Ardent 优 化 器 后 来 被 移植 到 一 个 基本 上 是 向 量 
存储 体系 结构 的 机 器 上 ， 并 且 生 成 的 代码 仍然 非常 好 。 

最 后 一 个 向 量化 策略 方面 的 关键 决策 涉及 到 向 量化 的 总 体 方法 。 本 书 给 出 的 算法 从 一 个 
纯粹 语义 的 观点 来 考虑 向 量化 ， 确 定 何 时 一 个 向 量 操作 和 相应 的 标量 操作 在 语义 上 是 等 价 的 。 
遗憾 的 是 ， 这 对 于 绝 大 多 数 实际 的 机 器 来 说 是 不 够 的 ， 因 为 机 器 必须 能 够 执行 这 个 向 量 操作 
才 行 。 例 如 Titan I， 它 没有 向 量 除 法 指令 ， 因 此 虽然 从 理论 的 观点 来 看 如 果 编 译 器 能 够 向 量 
化 一 个 除法 是 很 好 的 ， 但 是 这 并 不 能 导致 任何 的 程序 执行 加 速 。9 

面 对 固 定 的 硬件 这 一 困难 的 现实 ，Titan 向 量化 编译 器 必须 或 者 〈(1) 避免 向 量化 那些 机 器 
不 支持 的 操作 ， 或 者 (2) 把 这 样 的 向 量化 操作 转换 成 一 系列 可 以 为 机 器 所 接受 的 操作 。 这 里 
采用 的 方法 是 第 二 种 : 从 纯粹 语义 的 观点 来 向 量化 循环 ， 然 后 进行 一 遍 机 器 相关 的 “ 反 向 量 
化 ”"， 把 机 器 中 没有 的 向 量 操作 转换 为 有 效 的 指令 。 这 样 做 的 理由 是 编译 器 最 终 总 会 被 移植 到 
其 他 目标 体系 结构 上 ， 因 此 先 作 一 遍 铅 量化 〈 按 机 器 的 约束 参数 化 ， 例 如 按 分 段 大 小 和 可 用 
的 并 行 性 ) 然后 再 作 一 遍 反 向 量化 ， 这 是 一 种 比较 容易 进行 移植 的 方法 。 

事实 证 明 ， 这 也 是 所 有 方法 中 最 有 效 的 一 种 ， 特 别 是 在 最 终 的 代码 方面 。 例 如 ， 即 使 
Titan 没 有 向 量 除 法 ， 但 在 某 些 情 况 下 ， 它 仍 可 以 向 量化 一 个 向 量 除 以 一 个 标量 的 除法 ， 其 作 
法 是 计算 标量 的 倒数 ， 然 后 做 向 量 和 这 个 结果 的 乘法 (假设 x/a =x*1/4)。。 这 种 变换 在 预 向 
量化 阶段 是 很 难 识别 的 ， 因 为 在 知道 哪个 循环 被 向 量化 之 前 ， 你 无 法 知道 除数 是 否 是 一 个 标 
量 。 这 在 预 向 量化 完成 后 的 阶段 是 很 容易 实现 的 。 


5.13.3 向 量化 的 性 能 

为 了 说 明 在 PFC 中 使 用 和 本 章 中 描述 过 的 向 量化 技术 的 性 能 ， 我 们 给 出 了 不 同 编译 器 在 
Callahan-Dongarra-Levine 基 准 测 试 程序 包 上 的 有 效 性 研究 结果 , 该 测试 程序 包 包 含 100 个 循环 ， 
用 于 考察 向 量化 编译 器 的 不 同方 面 的 能 力 。 测 试 程序 包 (可 以 在 www.mkp.com/ocma 上 找到 源 
代码 ) 分 为 四 类 : 

(1) 依赖 ， 用 于 考察 依赖 测试 的 精确 度 。 

(2) 向 量化 ， 测 试 各 种 向 量化 变换 (例如 循环 分 布 、 循 环 交换 、 标 量 扩展 以 及 交叉 国 值 
等 ) 是 否 存在 。 

(3) idioms， 测 试 各 个 编译 器 在 识别 常见 的 归 约 、 封 装 、 查 找 和 一 些 特殊 依赖 环 的 能 力 。 

(4) 完整 性 ， 测 试 处 理 复杂 的 语言 结构 ， 例 如 控制 流 、 等 价 和 内 部 函数 等 的 能 力 。 

PFC 和 一 些 商 用 编译 器 的 实际 性 能 如 表 5-1 所 示 。PFC 的 实验 是 由 PFC 项 目 组 的 Ervan 
Darnel 完 成 的 ， 而 所 有 其 他 数据 均 来 自 Callahan，Dongarra 和 Levine 的 论文 [57]。 在 这 些 商 用 编 


日 ” 当 CPU 试 图 执行 向 量 除 法 时 ， 可 执行 的 向 量 操 作 立 即 转 储 核心 ， 存 这 个 意义 下 程序 的 执行 得 到 加 速 。 
© ”数值 方 面 的 纯粹 主义 者 很 容易 发 现 ， 如 果 不 对 标量 加 一 些 限制 结果 并 非 完 全 相同 。 
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FB, Ardent Titan 编 译 器 ，Convex C Series 编 译 器 和 IBM 3090 VF 编译 器 [243] 都 是 直接 基 
于 PFC 中 的 方法 和 算法 的 。 每 组 都 有 三 列 : 标 “V” 的 列表 示 完 全 向 量化 的 循环 的 个 数 ， 标 “P” 
的 列表 示 部 分 向 量化 的 循环 的 个 数 。100 和 这 两 列 的 和 之 差 就 是 没有 被 向 量化 的 循环 个 数 。 


325-1 测试 性 能 (Cailahan-Dongarra-Levine 测 试 ) 


总 计 依 赖 向 量化 Idioms 完 2 
Vectorizing compiler V P V P Vv P V P V P 
PFC 70 6 17 0 25 4 5 0 23 2 
Alliant FX/8, Fortran V4.0 68 5 19 0 20 5 10 0 19 0 
Amdahl VP-E, Fortran 77 62 H 16 1 21 8 11 1 14 1 
Ardent Titan- 1 62 6 18 0 19 5 9 0 16 1 
CDC Cyber 205, VAST-2 62 5 16 0 20 5 7 0 19 0 
CDC Cyber 990E/995E 25 il 8 0 6 8 3 1 8 2 
Convex C Series, FC 5.0 69 . 5 17 0 25 4 11 0 16 1 
Cray series, CF77 V3.0 69 3 20 0 18 3 9 0 22 0 
CRAX X-MP, CFT V1. 15 50 1 16 0 12 1 10 0 12 0 
Cray Series, CFT77 V3.0 50 1 17 0 8 1 7 0 18 0 
CRAY-2, C FT2 V3.1 a 27 1 5 0 3 1 8 0 li 0 
ETA-10, FTN 77 V1.0 62 7 18 0 18 7 7 0 19 0 
Gould NP1, GCF 2.0 60 7 14 0 19 7 8 0 19 0 
Hitachi S-8 10/820 67 4 14 .0 24 4 14 0 15 0 
IBM 3090/VF, VS Fortran 52 4 12 0 19 3 5 1 16 0 
Intel iPSC/2-VX, VAST-2 56 8 15 0 17 8 6 0 18 0 
NEC SX/2, F77/SX 66 5 17 0 21 5 12 0 16 0 
SCS-40, CFT x 1 3g 24 1 7 0 6 1 5 0 6 0 
Stellar GS 1000, F77 48 11 14 0 20 9 4 1 10 i 
Unisys ISP, UFTN 4.1.2 67 13 21 3 19 8 10 2 17 0 





如 表 5-1 所 示 ，PFC 在 向 量化 和 完整 性 这 两 个 组 都 做 得 很 好 ， 这 是 因为 它 所 采用 的 程序 变 
换 的 系统 方法 (例如 数组 重 命名 和 交叉 国 值 )、 对 条 件 语句 的 处 理 〈 见 第 7 章 ) 以 及 过 程 间 分 
br (〈 见 第 11 章 )。 在 依赖 分 析 方面 ，PFC 做 得 一 般 ， 但 是 实验 时 ， 它 尚未 使 用 第 3 章 所 描述 的 
那 一 套 完 整 的 测试 方法 。 比 较 起 来 ，PFC 在 idioms 方 面 做 得 比较 差 。 这 是 因为 PFC 项 目 中 的 一 
个 设计 决策 ， 决 定 不 在 那些 处 理 特 殊 情 况 的 模式 匹配 上 投入 过 多 资源 。 
直接 基于 PFC 的 编译 器 一 一 来 自 Ardent，Convex 和 IBM 一 一 也 做 得 比较 好 ， 虽 然 IBM 向 量 
化 编译 器 在 依赖 测试 方面 有 所 欠缺 ， 因 为 它 是 在 低层 中 间 表 示 上 而 不 是 在 源 程 序 级 作 依赖 测 
试 。Ardent 编 译 器 做 得 相当 好 ， 尽 管 只 用 了 一 年 半 的 时 间 进 行 开发 。 
总 而 言 之 ， 这 些 结果 证 明 本 书 描述 的 变换 和 测试 广泛 涉及 向 量化 编译 器 所 面临 的 各 种 挑 
战 。 然 而 ，Callahan-Dongarra-Levine 测 试 还 显示 另外 一 点 。 那 些 做 的 最 好 的 编译 器 都 是 在 细 
234| 地 上 一 丝 不 区 的 。idioms 是 说 明 这 一 点 的 一 个 例子 ， 但 是 我 们 给 出 另外 一 个 例子 一 一 测试 用 例 
235| 171 ( 它 是 一 个 PFC 不 能 向 量化 的 例子 ,但 是 绝 大 部 分 编译 器 都 能 正确 地 处 理 ): 


subroutine s171 (a,b,n) 
integer n 
real a(*),b(*) 
do 1030 i = 1, n 
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aCi*n) = a(i*n) + b(i) 
1030 continue 
PFC 在 这 个 测试 失败 是 因为 它 在 处 理 下 标 中 的 符号 系数 方面 作 得 很 差 。 因 为 n 可 能 等 于 0， 
所 以 它 没 有 向 量化 这 个 循环 。 但 它 忽视 了 n 同 时 还 是 循环 上 界 这 一 事实 ， 这样 车 nn 等 于 0， 循 环 
即 退 化 了 。 这 类 例子 说 明 ， 即 使 有 了 正确 的 框架 ， 要 取得 成 功 还 依赖 寺 对 实际 中 出 现 的 特殊 
情况 的 系统 处 理 。 本 章 的 一 个 目标 就 是 提供 一 个 大 大 简化 这 一 处 理 的 框架 。 


5.14 历史 评述 与 参考 文献 

在 基于 依赖 的 程序 变换 方面 最 早 的 文献 包括 Lamport[195，196] 和 Kuck[190] 的 论文 。 
Lamport 开 发 了 一 种 用 于 向 量化 的 循环 交换 ， 以 及 用 于 并 行 化 的 波 前 方法 ， 循 环 倾斜 的 一 种 早 
期 形式 。Lamport 也 讨论 标量 扩展 的 重要 性 ， 虽 然 他 没有 给 出 实现 方法 。Wolfef278，280 ， 
283] 进 一 步 地 研究 了 循环 交换 ， 本 章 讨 论 的 扩展 是 由 Allen 和 Kennedy[16，19，20] 提 出 的 。 用 
方向 矩阵 驱动 交换 是 在 本 书 中 首先 提出 的 ， 但 是 它 基本 上 是 wolfe 提 出 的 方向 向 量 [280] 以 及 
Lamport 所 使 用 的 并 被 Wolf 和 Lam[277] 发 展 了 的 距离 矩阵 方法 的 一 种 变形 。 

Wolfe 的 硕士 论文 [278] 讨 论 一 种 标量 扩展 的 机 制 。 他 的 方法 机 械 地 扩展 所 有 的 标量 ， 不 管 
是 否 有 利 ， 而 依靠 后 面 一 遍 收缩 那些 没有 好 处 的 扩展 。Pieper[224] 的 博士 论文 考察 多 种 不 同 
的 标量 扩展 方法 ， 并 比较 它们 在 实际 程序 中 的 效果 。 

用 于 消除 依赖 的 各 种 重 命名 技术 在 很 多 地 方 都 作 了 一 般 的 讨论 [20]， 例 如 索引 分 裂 。 特 别 
地 ，Padua 的 论文 给 出 一 个 标量 重 命名 的 精确 算法 [221]。 数 组 重 命名 和 结 点 分 裂 是 从 Allen 和 
Kennedy 的 一 篇 文章 [21] 中 来 的 ， 不 过 在 本 书 对 它 进行 了 修改 。 目 前 这 种 形式 的 循环 倾斜 是 由 
Wolfe[28] 作 为 Lamport 的 波 前 变换 的 一 种 实用 的 形式 而 引入 的 。 对 程序 变换 的 有 用 的 评述 包括 
Padua 和 Wolfe[222]、Kuck 等 [190] 、Wolfe 的 博士 论文 [283] 以 及 Wolfe 后 来 写 的 教科 书 等 。 

这 里 给 出 的 向 量变 换 的 全 局 选择 策略 是 Allen 在 Ardent Titan 编 译 器 中 工作 的 一 部 分 。 
习题 

5.1 把 循环 移动 代码 生成 的 启发 式 方法 应 用 于 下 例 : 

DOI=1,N 

00J=1,N 
DO K= 1, N 
ACI, J+1) = A(I,J) + B(K,J) 
ENDDO 
ENDDO 

ENDDO 

5.2 修改 5.4 节 的 数组 重 命名 算法 用 于 处 理 循 环 体内 有 控制 流 的 代码 。 提 示 : 采用 和 标量 
扩展 类 似 的 方法 保证 在 每 个 控制 流 分 支 上 都 有 一 个 定 值 。 

5.3 证 明 等 式 (5.1) 中 的 循环 倾斜 替换 具有 给 外 层 循环 携带 的 依赖 的 内 层 循 环 距 离 增 加 k 
的 作用 。 它 对 内 层 循 环 携带 的 依赖 具有 什么 作用 ? 

5.4 证 明 存在 关键 反 依赖 了 时， 图 5-14 的 节点 分 裂 算 法 可 以 在 应 用 标量 扩展 以 后 打破 依赖 环 。 

5.5 把 5.10 第 的 代码 生成 算法 应 用 于 下 边 循 环 伺 套 ， 会 有 哪些 变换 被 用 到 ? 

DOI=1,N 

DOJ=1,N 
DO K= 1, N 





162 蓝 了 5 间 


AOR o mmm 


T = A(K,d) + A(K+1,J) 
A(K+1,J) = T + B(K) 
ACK+1,0) = A(K+1,J) + C(K) 


ENDDO 
ENDDO 
ENDDO 
5.6 下 边 的 循环 应 该 生成 怎样 的 向 量 代码 ? 
DO I = 1, 100 


ACI) = B(K) + C(I) 
B(I+1) = A(I) + DCT) 
ENDDO 





第 6 章 





开发 粗 粒度 并 行 性 


6.1 引言 

第 5 章 过 论 了 用 于 提高 内 层 循环 并 行 性 的 程序 变换 。 那 些 变换 提高 了 向 量 和 超标 量 体 系 结 
构 的 性 能 ， 其 中 并 行 性 是 细 粒 度 的 ， 且 主要 存在 于 最 内 层 循 环 中 。 本 章 我 们 转向 为 用 共享 全 
局 存储 的 异步 多 处 理 器 发 据 并 行 性 的 问题 。 这 类 处 理 器 以 对 称 多 处 理 器 (SMP) 一 一 如 Sun， 
Silicon Graphics 及 Compaq 等 公司 的 工作 站 一 一 以 及 分 布 式 共享 存储 (DSM ) 系统 (典型 系统 
有 SGI Origin 2000 和 HP/Convex SPP-2000) 为 代表 。 

多 处 理 器 级 的 粗 粒度 并 行 性 要 求 不 同 的 侧重 点 : 在 这 种 体系 结构 上 ， 利 用 并 行 性 的 方法 
是 在 每 个 处 理 器 上 创建 一 个 线程 ， 并 行 执行 一 段 时 间 ， 其 间 偶 有 同步 ， 并 在 最 后 通过 一 个 机 
障 实现 同步 。 在 这 些 系统 上 获得 高 性 能 的 关键 在 于 找到 并 封装 有 足够 粒度 的 并 行 性 ， 以 弥补 
并 行 初始 化 和 同步 所 带 来 的 开销 。 这 样 侧 重点 就 在 于 找到 循环 体内 有 大 量 计 算 的 并 行 循环 。 
这 通常 意味 着 外 层 循环 的 并 行 化 而 不 是 内 层 循环 的 并 行 化 ， 并 且 常 常 意味 着 含有 子 例 程 调用 
的 循环 的 并 行 化 ， 这 是 在 第 11 章 要 讨论 的 题目 。 

在 为 粗 粒度 体系 结构 生成 并 行 代 码 时 ， 许 多 复杂 微妙 的 折 中 需要 仔细 考虑 。 其 中 最 困难 
的 问题 之 一 是 在 保持 所 有 处 理 器 上 的 负载 平衡 的 同时 最 小 化 通信 和 同步 开销 。 在 一 个 极端 ， 
当 整 个 程序 运行 在 一 个 处 理 器 上 时 ， 我 们 得 到 绝对 的 最 小 开销 ; 因为 没有 并 行 性 ， 也 就 没有 
处 理 器 间 的 通信 和 同步 开销 。 自 然 ， 负 载 平 衡 和 相应 的 并 行 加 速 比 也 很 差 。 在 另 一 个 极端 ， 
当 程 序 被 分 解 成 最 小 可 能 的 并 行 单元 ， 且 所 有 并 行 单元 均匀 地 分 布 在 空闲 处 理 器 上 时 ， 可 以 
得 到 最 好 的 负载 平衡 。 因 为 并 行程 序 单元 很 小 时 ， 不 会 出 现 一 个 处 理 器 长 时 间 执 行 某 个 很 大 
的 程序 单元 而 其 他 处 理 器 无 事 可 做 的 和 情形。 然而， 同步 和 通信 开销 在 此 情况 下 达到 最 大 化 ， 
而 这 一 开销 几乎 总 是 超过 完美 的 负载 平衡 所 带 来 的 好 处 。 在 这 两 个 极端 之 间 有 一 个 最 有 效 的 
并 行 分 解 一 一 并 行 化 编译 器 面临 着 找到 这 个 最 佳 点 的 挑战 。 

第 1 章 介绍 了 PARALLEL 00 语 句 〈 见 1.5.1 节 )， 它 表示 其 和 迭代 按 任何 顺序 都 能 正确 运行 的 循 
环 。 文 献 中 也 把 这 种 类 型 的 循环 称 为 DOALL 循 环 。 粗 粒度 并 行 循环 的 另 一 种 形式 是 DO0ACR0SS 循 
环 ， 它 利用 迭代 间 的 同步 以 流水 方式 执行 并 行 循环 欠 代 (基本 上 是 把 多 处 理 器 作为 高 层 向 量 
处 理 器 使 用 )。 本 章 侧重 于 PARALLEL 0D0 循 环 的 生成 ， 因 为 任何 可 以 以 DOACR0SS 循 环 的 形式 有 
效 利用 并 行 性 的 循环 , 都 可 以 被 分 成 一 系列 PARALLEL D0 循环 , 虽然 这 可 能 失去 流水 线 并 行 性 。 
6.6.2 节 更 详细 地 讨论 流水 并 行 性 的 引入 。 

本 章 的 其 余部 分 描述 可 用 于 程序 建立 新 并 行 机 会 的 变换 ， 从 而 将 这 个 简单 的 代码 生成 算 
法 改进 成 为 一 个 复杂 的 ， 积 极 的 代码 生成 策略 。 这 其 中 的 很 多 变换 曾经 在 讨论 向 量化 时 讲述 
过 ; 本 章 给 出 在 粗 粒 度 并 行 性 下 必须 作 的 一 些 (通常 是 较 小 的 ) 修改 。 


6.2 单 循环 的 处 理 方 法 
在 试图 改进 从 单个 循环 中 发 据 出 来 的 并 行 性 时 ， 可 以 尝试 两 个 通用 的 策略 。 如 果 循 环 是 
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一 个 串 行 循环 ，( 也 就 是 说 ， 它 携带 依赖 ) ， 找 到 一 些 方法 将 其 并 行 化 是 改进 并 行 性 的 明显 方 
法 。 任 何 消除 循环 携带 依赖 的 变换 〈 例 如 循环 分 布 ) 都 可 以 用 于 这 个 目的 。 如 果 一 个 循环 是 
并 行 的 ， 增 大 暴露 出 的 并 行 性 粒度 通常 是 有 效 的 。 这 一 节 讨 论 为 达到 这 些 目的 不 同 变换 。 


6.2.1 私有 化 
第 5.3 节 介绍 了 标量 扩展 和 标量 私有 化 变换 。 标 量 扩展 在 向 量化 中 是 有 效 的 ， 因 为 它 消除 
很 多 和 原来 的 标量 相关 联 的 依赖 一 既 有 循环 携带 也 有 循环 无 关 的 依赖 。 因 为 删除 循环 携带 
依赖 能 把 串 行 循环 转变 成 为 并 行 循环 ， 标 量 扩展 和 标量 私有 化 都 是 增加 粗 粒度 并 行 性 的 重要 
变换 。 
标量 扩展 的 机 制 和 确定 它 的 安全 性 的 条 件 在 第 5.3 节 已 经 讨论 过 了 。 不 管 是 应 用 于 向 量化 
或 者 是 并 行 化 ， 这 些 都 是 相同 的 。 在 这 一 节 我 们 将 集中 于 私有 化 ， 确 定 一 个 循环 内 赋值 的 变 
量 仅仅 在 其 被 赋值 的 迭代 内 引用 。 这 样 的 变量 可 以 跨越 各 个 迭代 复制 ， 消 除 可 能 表面 上 阻碍 
并 行 化 的 循环 携带 依赖 。 
作为 一 个 例子 ， 考 虑 5.3 节 中 的 一 个 简单 代码 段 ， 在 其 中 交换 两 个 数组 的 值 
DO I =1,N 
Si T = A(I) 
$2 A(I) = B(I) 
S; B(I) =T 
ENDDO 
这 个 循环 的 依赖 模式 在 图 6-1 中 给 出 。 因 为 循环 携带 的 反 依 赖 和 输出 依赖 ， 这 个 循环 在 此 形式 
下 不 能 被 并 行 化 。 
幸运 的 是 ， 所 有 的 循环 携带 依赖 都 是 由 于 标量 变量 T 的 赋 
值 和 引用 导致 的 ， 像 我 们 在 5.3 节 指出 的 那样 ， 如 果 每 个 选 代 
有 它 自己 的 变量 T 的 拷贝 ， 所 有 这 些 循环 携带 依赖 都 可 以 被 消 
除 掉 ， 像 在 以 下 变换 和 并 行 化 后 的 代码 中 那样 
PARALLEL DO I = 1,N 
PRIVATE t 
Si t = A(I) 
Sp ACI) = BCI) 
S; B(I) =t 
END PARALLEL DO 
HELD, BUTE BIE TEC AL mel 数组 六 所 的 全 起 图 
有 的 变量 T 的 拷贝 是 正确 的 ， 因 为 循环 体内 所 有 T 的 引用 都 是 
引用 一 个 相同 选 代 内 的 赋值 。 换 句 话说， 循环 体内 没有 向 上 暴露 的 引用 。 这 个 条 件 通过 下 边 
的 定义 来 形式 化 。 
定义 6.1 二 个 在 循环 内 定义 的 标量 x 对 这 个 循环 来 说 是 可 私有 化 的 ， 当 旧 仅 当 从 
循环 体 的 开始 到 循环 体内 x 的 任 一 引用 的 每 条 路 径 在 到 达 访 引用 前 必须 经 过 x 的 一 个 
定 值 点 。 


能 私有 性 可 以 通过 4.4 节 描述 的 标准 数据 流 分 析 来 确定 。 首 先 我 们 求解 循环 体 上 的 一 组 数 
据 攻 方程 ， 来 确定 在 每 一 基本 块 xz 的 开始 处 是 向 上 暴露 的 变量 集合 xpP(9: 
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up(x) = use(x) U (def (x) N Y PO) (6-1) 


其 中 use(x) 是 在 块 + 中 有 向 上 暴露 引用 的 变量 集合 。deflx) 是 在 块 x 中 有 定义 的 变量 集合 。 如 果 
po 是 循环 体 的 入 口 基 本 块 ， 那 么 在 循环 内 定义 的 一 个 变量 是 可 私有 化 的 ， 当 且 仅 当 它 不 在 集 
合 up(bo) 里 。 在 循环 体 B 中 所 有 可 私有 化 变量 的 集合 由 下 式 给 出 : 

private(B) = ~up(b,) O ( Y def O) (6-2) 


确定 某 个 特定 的 标量 是 否 可 私有 化 的 另 一 方法 是 通过 4.4.4 节 的 SSA 图 。 


”定理 6.1 “一 个 在 循环 中 定义 的 变量 x 可 以 被 私有 化 ， 当 且 仅 当 该 变量 的 SSA 图 在 
循环 人 口 处 没有 $ 结 点 。 


这 一 命题 是 对 的 ， 因 为 标准 SSA 构 造 会 对 没有 在 程序 中 显 式 赋 值 的 变量 播 和 人 哑 初 始 化 。 
因此 ， 我 们 可 以 假定 每 个 标量 都 是 在 循环 体外 赋值 的 。 如 果 一 个 给 定 的 变量 x 有 一 个 向 上 暴露 
的 引用 ， 那 么 循环 体外 的 定义 可 以 到 达 这 个 引用 。 另 外 ， 任 何 循环 内 的 定义 也 可 以 通过 一 条 
跨越 迭代 的 路 径 到 达 该 引用 。 这 样 由 两 个 不 同 的 定义 所 产生 的 值 必然 会 在 该 循环 的 SSA 构 造 
过 程 中 通过 播 入 $ 结 点 解决 。 显 然 ， 如 果 循 环 体 中 没有 向 上 暴露 的 引用 ， 就 不 需要 $ 结 点 。 因 
此 在 循环 入 口 处 有 $ 结 点 ， 当 且 仅 当 循环 体 中 有 向 上 暴露 的 引用 。 

如 果 某 个 特定 循环 携带 的 所 有 依赖 均 涉 及 到 可 私有 化 的 变量 ， 那 么 通过 私有 化 所 有 这 些 
变量 ， 该 循环 可 以 被 并 行 化 。 

比 起 标量 扩展 ， 明 显 地 我 们 倾向 于 用 私有 化 的 方式 消除 在 粗 粒 度 循环 内 的 循环 携带 依赖 ， 
但 标量 扩展 也 可 以 在 一 些 不 能 做 私有 化 的 情况 下 有 所 帮助 。 下 面 就 是 一 个 这 样 的 例子 : 

DOI=1,N 

T = ACI) + BCT) 
A(I-1) = T 

ENDDO . 

因为 存在 由 T 和 A 导致 的 循环 携带 的 依赖 ，( 对 T 的 ) 私有 化 不 能 产生 任何 并 行 性 。 然 而 ， 
标量 扩展 T 允 许 循环 被 分 布 ， 产 生 了 两 个 并 行 循环 ， 其 间 有 一 个 栅 障 : 

PARALLEL DO I =1,N 

TS(I) = ACI) + B(I) 

ENDDO 

PARALLEL DO I =1,N 

A(I-1) = TS(T) 

ENDDO 

标量 扩展 在 这 种 情况 下 的 应 用 可 能 需要 大 量 存储 空间 (特别 是 如 果 扩 展 应 用 于 多 个 循环 
时 )， 故 其 使 用 须 视 情 况 而 定 。 

好 的 私有 化 对 于 并 行 化 大 多 数 应 用 来 说 是 很 关键 的 。 很 多 应 用 如 果 没 有 对 数组 和 标量 的 
私有 化 就 不 能 被 并 行 化 。 考 虑 一 维 数组 的 私有 化 问题 。 因 为 我 们 不 为 下 标 变 量 构 造 SSA 图 ， 
定理 6.1 给 出 的 私有 化 条 件 的 简单 测试 不 能 用 于 数组 。 遗 憾 的 是 ， 循 环 携带 依赖 的 存在 不 足以 
说 明 一 个 数组 是 不 能 被 私有 化 的 ， 如 下 例 所 示 : 


DOI= 1, 100 
ST) =X 
lL, DOJ=2,N 





Si T(J) = T(J-1) + BCI,J) 
S2 A(I,J) = T(J) 
ENDDO 
ENDDO 


虽然 这 可 能 不 很 明显 ， 但 实际 上 I- 循 环 的 循环 体内 对 于 数组 T 的 每 个 元 素 的 引用 之 前 都 有 
对 该 元 素 的 赋值 。 然 而 ， 一 个 标准 的 依赖 分 析 器 将 会 构造 一 个 从 语句 Si 到 它 自身 的 I- 循 环 携 
带 的 依赖 ， 因 为 T(J-1) 和 T(J) 在 I- 循环 的 不 同 迭 代 中 引用 了 相同 的 数组 元 素 。 这 样 ， 为 了 私 
有 化 数组 T， 我 们 必须 确定 数组 T 的 任 一 元 素 都 没有 向 上 暴露 的 引用 。 

如 果 我 们 是 处 理 单个 的 循环 ， 那 么 可 以 使 用 一 种 类 似 标 量 数据 流 分 析 的 方法 。 假 设 我 们 
把 数组 T 的 下 标 变量 的 不 同 实例 作为 单个 的 标量 引用 看 待 。 这 样 ，T(1) 就 会 被 看 作 和 T(J) 以 及 
T(J-1) 不 同 的 变量 。 如 果 我 们 来 解决 循环 体 的 向 上 暴露 引用 问题 ， 结 果 将 会 是 那些 我 们 必须 
假定 在 循环 体内 定义 它 之 前 被 引用 的 变量 。 如 果 该 方法 应 用 于 上 例 的 内 层 循 环 

L DOJ=2,N 

Si T(J) = T(d-1) + B(I,J) 

Sz A(I,J) = T(J) 

ENDDO 
它 确定 引用 T(J-1) 是 向 上 暴露 的 。 注 意 B(I,J) 在 循环 内 也 是 向 上 暴露 的 ， 但 是 我 们 现在 将 注 
意 力 集中 在 T 上 ， 因 为 它 是 惟一 的 既 在 循环 内 引用 又 在 其 中 定义 的 变量 。 

为 了 把 这 个 分 析 扩 展 到 循环 的 仍 套 中 ， 我 们 需要 一 些 方法 来 确定 那些 在 内 层 循 环 中 向 上 
暴露 的 引用 集合 。 为 了 计算 这 个 集合 ， 我 们 对 那些 由 循环 J 迭代 导致 的 向 上 暴露 的 变量 ， 构 造 
一 个 表示 。 在 适 代 J 向 上 暴露 的 变量 集合 就 是 循环 体内 从 入 代 J 开始 向 上 暴露 的 变量 集合 ， 减 
去 在 某 些 前 面 的 迭代 中 定义 的 变量 的 集合 。 

对 于 前 边 的 内 层 循环 ， 我 们 已 经 看 到 T(J-1) 在 迭代 J 上 是 向 上 暴 圳 的。 显然， 在 某 些 前 边 
选 代 中 定义 的 变量 集合 由 所 有 前 边 友 代 的 定义 集合 的 并 集 给 出 。 在 这 个 例子 中 很 清楚 它 是 
T(2:J)。J 的 所 有 变量 的 这 些 差 集 的 并 给 出 T 中 向 上 暴露 的 元 素 的 完全 集合 。 


up(l,) = ÙT- 1} -T(2: J) 


容易 看 出 ， 除 了 J 等 于 2 时 ， 表 达 式 T(J-1)-T(2:J) 都 为 空 。 这 样 内 层 循 环 向 上 暴露 单元 的 
完全 集合 是 {T(1)}。 

一 且 子 循环 被 处 理 了 ， 确 定 哪 个 变量 可 私有 化 的 算法 也 使 用 单 循环 的 处 理 方法 ， 内 层 循 
环 被 作为 一 条 语句 处 理 ， 该 语句 先 引 用 其 向 上 暴露 的 变量 表 中 的 所 有 变量 ， 然 后 定义 那些 必 
须 在 循环 的 某 些 欠 代 中 定义 的 变量 。 在 我 们 的 例子 中 ，Li 定 义 T(2:N)。 

这 个 分 析 用 于 本 例 的 最 终结 果 是 T(1) 恰 好 在 Li 之 前 的 语句 中 定义 ， 因 此 在 外 层 循环 中 没 
有 向 上 暴露 的 元 素 。 这 样 整个 数组 在 I- 循 环 中 可 以 被 私有 化 ， 从 而 外 层 循环 可 以 被 并 行 化 : 

PARALLEL DO I = 1, 100 


PRIVATE t 
So t(1) = X 
La DO J=2, N 
Sı t(J) = t(J-1) + B(I,J) 


Sz A(I,J) = t(J) 
ENDDO 
ENDDO 
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注意 这 个 代码 假设 在 循环 后 没有 数组 T 的 引用 (这 里 t 和 T 被 认为 是 不 同 的 )。 如 果 存 在 这 
样 的 引用 ， 私 有 化 变换 需要 插入 一 个 条 件 赋值 语句 ， 在 循环 的 出 口 处 把 t 的 值 拷贝 到 T 中 。 在 
这 个 例子 中 ， 会 得 到 如 下 代码 : 

PARALLEL DO I = 1, 100 
PRIVATE t(N) 


So t(1) =X 
ty DO J =2, N 
Sı t(J) = t(J-1) + B(I,J) 
S: ACI, J) = t(d) 
ENDDO 
IF (I==100) T(1:N) = t(1:N) 
ENDDO 
6.2.2 循环 分 布 


细 粒 度 并 行 化 算法 codegen (图 2-2) 隐 式 依赖 于 循环 分 布 把 循环 携带 依赖 转变 成 为 循环 无 
关 依赖 。 例 如 ， 人 在 


DO I = 1,100 
DO J = 1, 100 
Si A(I,J) = B(I,J) + C(I,J) 
Sz D(I,J) = A(1,J-1)*2.0 
ENDDO 
ENDDO 
中 ， 当 J- 循 环 跨 越 从 语句 S; 到 语句 S: 的 循环 携带 依赖 分 布 时 ， 循 环 嵌 套 变 成 
DO I = 1,100 
DO J = 1, 100 
S; ACI, J) = B(1,J) + C(I,J) 
ENDDO 
DO J = 1, 100 
Sz DCI, J) = A(I,J-1)#2.0 
ENDDO 
ENDDO 


在 原始 代码 中 ， 由 数组 A 导 致 的 从 Si 到 S$: 的 依赖 跨越 J- 循 环 的 不 同 迭 代 ， 因 此 是 被 循环 携带 的 
依赖 。 通 过 循环 分 布 ， 这 个 依赖 不 再 被 任何 循环 携带 。 

循环 分 布 可 用 于 把 一 个 串 行 循环 转变 为 多 个 并 行 循环 。 然而， 因为 它 把 循环 携带 的 依赖 
转变 成 为 分 布 的 循环 间 的 循环 无 关 依 赖 ， 这 个 变换 在 依赖 的 两 端点 之 间 (第 一 个 并 行 循 环 的 
尾 端 ) 隐 式 地 插入 一 个 同步 栅 障 。 这 减 小 了 并 行 性 粒度 且 增 加 额外 的 通信 和 同步 开销 。 因 此 ， 
在 采用 循环 分 布 之 前 ， 应 先 尝试 其 他 能 够 消除 依赖 但 是 不 会 减 小 并 行 性 粒度 的 方法 。 在 下 边 
几 小 节 我 们 将 讨论 一 些 这 样 的 变换 。 


6.2.3 对 齐 

循环 分 布 通过 先 执行 所 有 依赖 中 源 点 的 语句 然后 执行 汇 点 的 语句 来 变换 循环 携带 依赖 。 
在 分 布 之 前 ， 一 组 值 在 循环 的 一 个 选 代 中 计算 而 在 后 边 的 选 代 中 被 引用 。 分 布 以 后 ， 这 些 值 
在 一 个 循环 中 计算 而 在 不 同 的 循环 中 引用 。 另 一 个 能 够 达到 相同 目的 的 方法 是 重新 对 齐 循环 
使 得 值 的 计算 和 引用 在 同一 挝 代 中 。 下 边 从 6.2.2 节 分 布 例子 改写 的 例子 ， 说 明 这 个 思想 : 
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DOI=2,N 
A(I) = B(I) + C(I) 
DCI) = A(I-1)#2.0 
ENDDO 
这 个 循环 不 能 并 行 执 行 ， 因 为 对 选 代 I 计 算 的 A 的 值 在 选 代 I+1 被 引用 。 这 两 条 语句 可 以 通 
过 加 上 一 个 额外 的 选 代 并 调整 其 中 一 条 语句 中 数组 引用 的 索引 来 对 齐 ， 使 得 值 的 计算 和 引用 
246) 在 同一 迭代 中 进行 ， 从 而 得 到 
DO i =1, Nel 
IF (i .67. 1) AG) = B(i) + C(i) 
IF (i .LE. N) D(i+1) = ACi)#2.0 
ENDDO 
这 样 得 到 的 循环 不 携带 任何 依赖 ， 所 以 它 能 够 并 行 执行 。 这 个 变换 称 为 循环 对 齐 。 循 环 对 齐 
的 思想 如 图 6-2 所 示 。 





51 




















延伸 的 迭代 集 
图 6-2 循环 对 齐 的 图 解 


更 一 般 的 情况 ， 循 环 对 齐 这 样 实现 : 通过 增加 循环 选 代 次 数 以 及 在 与 那些 选 代 略 有 不 同 
的 子 集 上 执行 各 个 语句 ， 使 循环 携带 依赖 变 成 循环 无 关 的 依赖 。 循 环 对 齐 确实 会 导致 一 些 的 
开销 一 -一 个 额外 的 循环 迭代 和 额外 的 条 件 判 断 。 这 些 开销 可 以 通过 执行 第 一 条 语句 的 最 后 
一 个 迭代 和 第 二 条 语句 的 第 一 个 迭代 来 减少 ， 也 就 是 
DOi=2,N 
j=i-1; IFG EQ 2)j=N 
A(j) = B(j) + C(j) 
DCG) = ACi-1)#2.0 
ENDDO 
对 于 除了 第 一 个 迭代 以 外 的 所 有 其 他 和 迭代，j 比 ;小 1， 因 此 赋值 是 对 A(i-1) 的 。 在 第 一 个 
和 迭代 ，j=N， 因 此 对 A 的 最 后 一 个 元 素 的 赋值 可 以 正确 执行 。 结 果 是 ， 循 环 和 迭代 的 总 数 被 恢复 
到 它 的 最 初 计数 ， 但 是 仍 有 对 j 条 件 赋 值 的 开销 。 
另 一 个 办 法 是 ， 可 以 通过 剥离 每 条 语句 的 第 一 次 和 最 后 一 次 执行 来 消除 条 件 语 句 ， 得 到 
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D0(2) = A(1)*2.0 
00 I = 2, Nl 
A(T) = BCI) + C(I) 
D(I+1) = A(I)*2.0 
ENDDO 
ACN) = B(N) + C(N) 
这 个 形式 允许 有 效 的 并 行 化 ， 代 价 是 增加 两 条 语句 的 开销 ， 一 条 在 循环 前 ， 一 条 在 循环 
后 ， 它 们 不 能 并 行 执行 。 
是 否 可 能 通过 对 齐 来 消除 一 个 循环 内 的 所 有 携带 依赖 ? 显然 ， 如 果 携 带 的 依赖 在 一 个 依 
赖 环 中 ， 回 答 是 否定 的 ， 如 下 边 例 子 所 示 : 
DOIT=1,N 
A(I) = B(I) +€ 
B(I+1) = A(I) +D 
ENDDO 
”在 这 个 例子 中 , 对 8 的 引用 产生 一 个 循环 携带 依赖 。 在 这 种 情况 下 为 了 成 功 应 用 循环 对 齐 ， 
我 们 需要 交换 循环 体内 两 条 语句 的 顺序 。 然 而 ， 由 A 导 致 的 循环 无 关 依 赖 阻 碍 对 齐 前 的 语句 交 
换 ， 所 以 我 们 希望 能 够 在 一 步 内 完成 循环 对 齐 和 语句 交换 来 消除 循环 携带 依赖 : 
DOI=1,N+l 
IF (I .NE. 1) B(I) = A(I-1) + D 
IF (I .NE. N+1) A(I) = B(I) +C 
ENDDO 
虽然 现在 被 对 齐 ， 对 于 A 的 引用 却 没 有 对 齐 ， 产生 一 个 新 的 循环 携带 依赖 。 考 察 这 个 例 
子 ， 有 理由 相信 循环 对 齐 不 能 消除 一 个 环 内 的 所 有 携带 依赖 。 为 了 更 形式 化 地 证 明 这 一 点 ， 
让 我 们 假设 有 一 个 依赖 环 ， 并 且 和 希望 变换 程序 把 所 有 携带 依赖 转变 成 循环 无 关 依赖 。 为 了 保 
证 变换 的 正确 性 ， 必 须 在 变换 后 的 代码 中 保持 原 有 的 每 个 依赖 。 这 意味 着 依赖 环 中 每 条 语句 
必然 有 一 个 从 它 到 环 内 其 他 语句 的 依赖 ， 并 且 ， 根 据 我 们 的 假设 ， 那 个 依赖 必然 是 循环 无 关 
的 。 这 对 于 重 排序 后 代码 中 的 最 终 语 句 显然 是 不 成 立 的 ， 因 为 任何 从 它 开始 的 依赖 必然 是 后 
向 的 ， 因 此 不 能 是 循环 无 关 的 。 
直观 上 ， 依 赖 环 显然 会 阻碍 对 齐 。 每 个 依赖 环 有 一 个 固定 的 总 阐 值 ， 也 就 是 说 ， 环 内 的 
每 条 语句 实例 都 和 它 自 身 在 循环 内 的 若干 选 代 前 的 实例 相关 连 。 减 少 循环 体内 前 向 依赖 的 国 
值 必然 需要 增加 反 向 携带 依赖 的 国 值 。 这 样 循 环 内 所 有 依赖 的 立 值 不 能 同时 减少 到 0。 
但 是 不 包含 在 依赖 环 内 的 循环 携带 依赖 会 怎样 呢 ? 它们 是 否 总 能 够 通过 对 齐 转换 而 不 引 
人 新 的 携带 依赖 ? 回答 仍然 是 否定 的 ， 因 为 存在 着 对 齐 冲突 的 可 能 性 一 一 两 个 或 者 更 多 的 依 
赖 不 能 被 同时 对 齐 。 考 虑 下 边 的 例子 : 
DOI=1,N 
A(I+1) = B(I) +C 
X(I) = A(I+1) + ACL) 
ENDDO 
这 个 循环 包含 两 个 和 数组 A 关 连 的 依赖 、 一 个 循环 无 关 依赖 和 一 个 循环 携带 依赖 。 如 果 用 
对 齐 来 消除 循环 携带 依赖 ， 将 得 到 下 边 的 代码 : 
DO1=0,N 
IF (I .NE. 0) A(I+1) = B(I) +C 


nN 
oo 





N 
p 
\o 


IF (I .NE. N) X(I+1) = A(I+2) + ACI+1) 
ENDDO 
原来 的 循环 携带 依赖 已 经 被 消除 ， 但 是 消除 它 的 过 程 把 最 初 的 循环 无 关 依 赖 转变 成 了 循 
环 携 带 依赖 。 循 环 仍然 不 能 正确 地 并 行 执行 。 幸 运 的 是 ， 另 一 种 变换 一 一 代码 复制 ， 在 很 多 
情况 下 能 够 消除 对 齐 冲突 。 
6.2.4 代码 复制 
由 于 从 相同 源 点 出 发 进入 到 相同 汇 点 的 两 个 或 者 多 个 依赖 〈 或 者 依赖 链 ) 有 着 不 同 羡 值 ， 
导致 对 齐 冲 突 。 若 源 点 或 汇 点 被 调整 到 对 齐 某 一 个 依赖 ， 则 其 他 的 依赖 将 以 该 依赖 的 闪 值 偏 
移 ， 因 此 不 能 对 章 。 
如 果 导 致 对 齐 冲 突 的 依赖 可 以 被 改变 为 具有 不 同 的 源 点 或 者 不 同 的 汇 点 ， 那 么 这 些 依 赖 
可 以 被 分 别 对 齐 而 不 引发 冲突 。 一 个 分 裂 依赖 源 点 的 方法 是 复制 源 点 进行 的 计算 。 例 如 ， 在 
前 一 节 的 对 齐 冲 突 例 子 中 ， 第 二 条 语句 引用 的 A(I) 的 值 在 第 一 个 迭代 之 后 的 每 个 迭代 中 都 来 
自 第 一 条 语句 (因此 是 循环 携带 依赖 )。 因 为 第 一 条 语句 的 输入 操作 数 在 循环 内 部 不 改变 ， 因 
此 对 需要 的 迭代 重新 计算 A(I) 的 值 是 可 能 的 。 下 面 修改 后 的 对 齐 冲突 例子 通过 复制 消除 循环 
携带 依赖 。 
D0I=1N 
ACI+1) = BCI) +C 
! 复 制 的 语句 
IF (I .EQ. 1) THEN 
t = ACI) 
ELSE 
t = B(I-1) +€ 
END IF 
X(I) = A(I+1) +t 
ENDDO 
第 一 个 迭代 必须 被 分 离 出 来 ， 因 为 A(1) 的 值 是 循环 入口 以 前 的 旧 值 而 不 是 来 自 循环 内 的 
其 他 语句 。 假 设 对 变量 t 作 私有 化 ， 则 这 个 循环 设 有 携带 依赖 ， 可 以 并 行 执行 。 由 于 这 里 变换 
的 本 质 是 加 入 一 些 元 余 的 重复 计算 ， 变换 称 为 代码 复制 。 
代码 复制 、 循 环 对 齐 和 语句 重 排序 的 组 合 是 否 足 以 消除 无 依赖 环 的 循环 内 的 所 有 循环 扒 
带 依 赖 ? 下边 的 定理 表明 这 个 问题 的 回答 是 肯定 的 。 


定理 6:2 对齐、 复制 和 语句 重 排序 足以 消除 单个 循环 内 的 所 有 携带 依赖 ， 前 提 
是 循环 不 包含 依赖 环 ， 且 每 个 依赖 的 距离 是 独立 于 循环 索引 的 一 个 常数 。 


我 们 通过 构造 一 个 产生 想 要 的 结果 的 算法 来 证 明 这 个 定理 。 根 据 一 个 循环 没有 任何 依赖 
环 这 一 事实 ， 它 的 依赖 图 可 以 表示 为 一 个 有 向 无 环 对 齐 图 G=(V, E)。 其 中 顶点 (V) 表示 语 
旬 ; 边 (E) 表示 依赖 ， 并 在 边 上 标明 依赖 距离 。 

在 一 个 对 齐 图 中 ， 任 何 语句 在 任 一 时 刻 的 对 齐 用 一 个 偏 移 量 保存 ， 它 表示 语句 的 当前 对 
齐 和 原来 在 循环 中 的 位 置 之 间 的 迭代 次 数 。 下 边 的 例子 可 以 解释 这 个 概念 : 


DOI=1,N 
S$; A(I+2) = B(I) +C 
S: X(I+1) = A(I) +D 
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Ss Y(I) = A(I+1) + X(I) 
ENDDO 
这 个 例子 最 初 的 对 齐 图 如 图 6-3 所 示 。 依 赖 距离 在 4 字段 表示 ; 偏 移 量 (在 变换 前 它们 的 
值 都 是 0) 保存 在 o 字 段 。 在 证 明 对 齐 的 作用 以 前 ， 给 出 下 边 的 定义 是 有 用 的 : 


定义 6.2 tno) 表示 顶点 v 的 偏 移 量 ，d(e) 表示 依赖 边 e 的 距离 ， 一 个 对 齐 图 
G=(V, E) 被 称 为 无 携带 的 ， 如 果 对 于 每 个 边 e= (v, A 
o(v,) + d(e) = o(v,) 


图 6-3 中 的 对 齐 图 不 是 无 携带 的 。 因 为 总 的 目标 是 产生 一 个 并 行 循 环 ， 对 齐 和 复制 算法 的 
目标 是 通过 偏 移 量 调整 和 顶点 复制 构造 一 个 无 携带 
的 对 齐 图 。 给 定 这 样 一 个 图 ， 为 调整 过 的 循环 生成 
代码 是 很 简单 的 。 

图 6-4 表 示 的 对 齐 和 复制 算法 的 基本 方法 如 下 : 

(1) 创建 一 个 工作 表 ， 表 中 最 初 包含 任意 未 访 
问 过 的 顶点 。 

(2) 当 工 作 表 非 空 时 ， 重 复 以 下 三 个 步骤 : 

a) 从 工作 表 中 选取 并 删除 一 个 结 点 。 图 6-3 对 齐 图 
b) 把 它 和 对 章 图 中 与 之 相 邻 的 结 点 对 齐 ， 
当 需 要 不 同 的 对 齐 时 复制 代码 。 
c) 把 这 些 结 点 加 入 工作 表 。 
(3) 如 果 没 有 其 他 未 访问 过 的 顶点 ， 回 到 步骤 (1). 





procedure Align(V, E, d, 0) 
WV 和 E 分 别 是 顶点 和 边 的 集合 
1/ d 是 依赖 距离 表 
/ o 是 偏 移 量 表 ， 一 个 输出 变量 
I W 是 算法 的 任务 表 
while V +Ø do begin 
从 V 中 选 出 并 且 删 除 任意 一 个 元 素 vo 
W: = {vo}; o{vo}: =0; 
While W + Ø do begin 
for each 和 v 相 关连 的 边 e do 
if e=(w, v) then 
if w E€ V then 
begin 
W:=WU {w}; V:=V- {w}; 
o(w): = o(v) — d(e); 
end 
else if o(w) + o(v) ~ d(e) then begin // 冲突 
创建 一 个 新 的 顶点 w'; 
把 边 e=(w,v) 用 e'=(w', v) 替换 ; 





图 6-4 对 齐 和 复制 算法 
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for each? wij ido 
复制 这 条 边 ， 把 w 用 w 替换 ; 
W: = WU {w'}; o(w'): =0(v) - d(e); 
end 


else //e = (v, w) 
if w E€ V then 
begin 
W:=WU {w}; V:=V- {w}; 
o(w): = o(v) ~ d(e), 


end 


else if o(w) + o(v) + d(e) then begin // 冲突 
/ 一 直 复 制 上 流 的 顶点 
创建 一 个 复制 的 顶点 v'; 
把 边 e=(v,w) 用 e'=(v"', w) 替换 
for each 到 v 的 边 do 
复制 这 条 边 ， 把 "用 ”替换 ; 
W: = WU {v'}; o(v') : =o(w) — d(e); 
end 
end 
end 
end Align 





图 6-4 (8%) 


如 果 我 们 把 该 算法 应 用 到 图 6-3 的 对 齐 图 中 ， 选 择 5; 作 为 根 ， 可 以 得 到 图 6-5 中 修改 过 的 

图 。 

接 下 来 描述 如 何 从 对 齐 图 生成 代码 。 注 意 偏 移 

量 表示 在 对 齐 空间 中 每 个 语句 应 该 从 哪里 开始 。 下 
面 是 一 个 生成 图 6-3 的 循环 的 简单 对 齐 : 








DO I = 1, N+3 
S; IF (I .GE. 4) A(I-1) = B(I-3) +C 
S;' IF (I .GE. 2 .AND. I .LE. N+1) THEN 7 xi 
t = B(I-1) +€ 
ELSE 图 6-5 修改 过 的 对 弄 图 
t = A(I+1) 
ENDIF 
S; IF (I .GE. 2 .AND. I .LE. N+1) X(I) = A(I-1) + D 
S, IF (I .LE. N) Y(I)=t + X(T) 
ENDDO 
和 前 面 的 例子 一 样 ， 我 们 可 以 把 这 段 代 码 重新 压缩 如 下 : 
DO I=1, N 
il = I - 3; IF (il .LE. 0) i1 = il +N 
Si A(il+2) = B(i1) +C 
i2 = I -1; IF (i2 .LE. 0) i2 = i2 +N 
S;' IF (i2 .GE. 2) THEN 
t = A(i2) + D 


ELSE 
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t = X(I) 
ENDIF 
Sz X(i2+1) = A(i2) + D 
S; Y(I)=t+ X(I) 


ENDDO 


图 6-6 给 出 生成 对 齐 代码 的 未 压缩 版 本 的 算法 。 可 以 通过 使 用 条 件 赋值 计算 循环 索引 而 将 
此 算法 改写 为 产生 压缩 版 本 ， 我 们 把 这 个 修改 留 作 习 题 。 





procedure GenAlign(V, E, 0) 
WV 和 E 分 别 是 顶点 和 边 的 集合 
H o 是 偏 移 量 表 ， 一 个 输出 变量 
hi:=VY 中 任意 顶点 的 最 大 偏 移 量 ; 
L: = 二 V 中 任意 顶点 的 最 小 偏 移 量 ; 
设 Jvar 为 初始 循环 增 量 
设 Zvar 为 初始 循环 下 界 
设 Uvar 为 初始 循环 上 和 界 
和 成 循环 语句 “DO Ivar = Lvar — h,, Uvar+ 1,”; 


把 Y 中 的 顶点 按照 拓扑 排序 ， 首 先 取出 具有 最小 偏 移 量 的 顶点 ; 


for each v € V 按 照排 序 后 的 顺序 do begin 
if o(v) =1, the 那么 在 和 v 相 连 的 语句 前 加 上 前 组 
“IF (Ivar. GE. Lvar—o(v))” ; 
else if o(v) = h; thben 在 和 "相连 的 语句 前 加 上 前 组 


“IF (Ivar. LE.Uvar - o)” ; 
else 在 和 v 相 连 的 语句 前 加 上 前 缀 
“IF (Ivar. GE. Lvar — o(v).AND.Ivar.LE.Uvar — o(v))”; 
证 * 是 一 个 复制 的 节点 then begin 
替换 IF 后 边 的 语句 S 通 过 
THEN 
t, = RHS(S) {£ Ivar + ov) Ivar 
ELSE 
t, = LHS(S) 使 用 Jvar + o$ Ivar 
ENDIF 
这 里 是 惟一 的 一 个 标量 变量 
把 从 v* 发 出 的 依赖 边 的 汇 点 引用 替换 为 ze; 
end 


end 


生成 循环 结束 语句 “ENDDO” 
end GenAlign 





图 6-6 对 齐 和 复制 代码 的 生成 


6.2.5 循环 合并 

至 此 ， 我 们 探讨 了 进行 循环 变换 增加 并 行 性 而 不 使 用 循环 分 布 的 方法 。 如 在 6.2.2 市 讨论 
的 那样 ， 我 们 不 愿意 做 分 布 因为 那样 会 导致 较 小 的 并 行 粒度 和 额外 的 同步 开销 。 但 是 ， 如 果 
循环 中 一 些 语句 可 以 并 行 执行 而 另 一 些 不 能 并 行 执行 呢 ? 我 们 需要 寻找 重新 构造 现 有 循环 的 
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方法 ， 把 可 能 并 行 执行 的 部 分 与 那些 必须 串 行 执行 的 代码 分 开 ， 而 循环 分 布 是 这 样 做 的 明显 
途径 。 有 效 的 循环 分 布 需要 回答 下 边 两 个 问题 : 
(1) 我 们 如 何 才 能 有 效 地 找 出 循环 中 可 以 并 行 执行 的 部 分 ， 并 把 它们 与 串 行 代码 分 开 ? 
(2) 我 们 如 何 才 能 避免 过 多 地 损失 并 行 性 粒度 ? 
当 考 虑 细 粒 度 并 行 性 时 ， 我 们 可 以 尽 可 能 地 使 用 循环 分 布 ， 试 图 把 每 条 语句 放 到 由 它 自 
己 构成 的 一 个 循环 中 去 。 经 过 循环 分 布 ， 某 些 循环 可 以 并 行 执行 ， 而 另外 一 些 仍然 不 能 ， 因 
为 它们 是 依赖 环 中 的 一 部 分 。 当 我 们 为 异步 并 行 性 生成 代码 时 ， 这 个 方法 存在 问题 ， 因 为 生 
成 的 循环 粒度 太 细 了 。 另 一 方面 ， 它 将 并 行 部 分 清晰 地 与 串 行 执 行 部 分 分 开 。 恢复 粒 度 的 方 
法 是 重新 组 合 ， 或 者 说 “合并 ”那些 并 行 循环 成 为 较 大 的 并 行 循环 。 这 种 思想 可 以 用 下 边 的 
例子 来 说 明 : 
DOI=1,N 
Sı A(I) = B(I) + 1 
S: C(I) = ACI) + C(I-1) 
S; DCI) = ACI) + X 
ENDDO 
因为 从 S; 到 它 自 身 有 一 个 携带 依赖 对齐、 复制 或 倾斜 不 能 够 并 行 化 该 循环 。 循 环 分 布 
把 循环 转化 为 三 个 分 开 的 循环 : 
L DOT=1,N 
ACI) = BCI) + 1 
ENDDO 
L2 DO I=1,N 
C(I) = A(I) + C(I-1) 
ENDDO 
Ls DOT =1, N 
D(I) = ACI) +X 
ENDDO 
容易 看 出 循环 Li 和 L: 不 携带 依赖 ， 因 此 可 以 并 行 化 。 然 而 ， 因 为 每 个 循环 是 一 个 单 语 名 的 
循环 ， 结 果 得 到 的 并 行 性 不 大 可 能 是 有 利 的， 除非 循环 上 界 足够 大 ， 值 得 通过 循环 分 段 把 一 
HERRE H. 
为 了 增加 并 行 粒度 ， 我 们 试图 把 不 同 的 并 行 区 域 合并 到 一 个 较 大 的 循环 。 为 了 显示 如 何 
做 到 这 一 点 ,我们 把 完全 分 布 得 到 的 循环 结果 表示 为 一 个 有 向 图 ， 
图 中 的 顶点 表示 循环 ， 而 边 表示 不 同 循环 中 语句 间 的 依赖 。 图 6-7 
说 明 前 边 例 子 的 这 种 抽象 表示 。 在 这 个 图 中 ， 双 环 用 于 表示 从 循环 
分 布 得 到 的 并 行 子 循环 ， 单 环 表示 品行 子 循环 。 
从 图 6-7 明 显 看 出 ， 循 环 L 和 Ls 可 以 被 合并 以 增 大 并 行 粒度 ， 因 
为 它们 原来 是 在 相同 循环 中 ， 并 且 从 L 到 L; 没 有 阻止 合并 的 依赖 。 Cs) 
下 边 的 并 行 代码 由 合并 Li 和 ,得 到 : 
Li PARALLEL DO I = 1，N 
A(I) = B(I) + 1 
L; D(I) = ACI) + X 
ENDDO 
Lz DO I=1, N 
C(I) = ACI) + C(I-1) 
ENDDO 


图 6-7 循环 间 依 赖 图 
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这 个 变换 称 为 循环 合并 。 像 通常 重 排序 变换 一样 ， 有 些 情况 下 循环 合并 是 无 效 的 。 特 别 
是 ， 就 像 存在 阻止 交换 的 依赖 一 样 ， 也 会 有 阻止 合并 的 依赖 一 一 指 那些 当 两 个 循环 合并 时 被 
反 转 的 依赖 。 这 样 的 依赖 不 可 能 是 由 循环 分 布 产生 的 子 循环 造成 的 ， 因 为 合并 这 些 子 循 环 显 
然 是 有 效 的 (它们 本 来 是 一 个 循环 ， 因 此 把 它们 重新 合并 为 一 个 循环 不 可 能 是 非法 的 )。 然 而 ， 
这 样 的 依赖 可 能 存在 于 原来 不 同 的 循环 间 ， 如 下 边 例子 所 示 : 
DOI=1,N 
Sı A(I) = B(I) +C 
ENDDO 
DOI=1,N 
S: D(I) = A(I+1) + E 
ENDDO _ 
从 51 到 5; 的 依赖 由 于 A 是 循环 无 关 的 一 一 5 中 引用 的 全 部 A 值 是 由 51 生 成 的 ， 惟 一 的 例外 是 
最 后 一 个 迭代 引用 的 值 。 如 果 这 两 个 循环 合并 成 


DOI=1,N 
S; ACI) = B(I) +C 
S: D(I) = A(I+1) +E 


ENDDO . 
循环 无 关 依 赖 就 变 成 了 一 个 后 向 的 循环 携带 反 依 赖 。 由 于 这 个 明显 的 事实 ， 在 合并 后 的 循环 
中 ，S$2: 引 用 的 A 的 值 没 有 一 个 是 由 S: 生 成 的 。 

像 6.2.2 节 讨论 的 那样 ， 循 环 分 布 把 一 些 循环 携带 依赖 转变 成 循环 无 关 依 赖 。 因 为 由 循环 
分 布 造成 的 循环 可 以 被 正确 地 合并 看 来 是 很 合理 的 ， 因 此 在 循环 分 布 过 程 中 从 循环 携带 依赖 
转变 成 的 循环 无 关 依赖 不 会 阻碍 循环 合并 一 一 通过 循环 合并 ， 它 们 将 被 正确 地 重新 转换 为 循 
环 携带 依赖 。 这 些 依赖 和 前 边 例子 中 的 携带 依赖 的 区 别 ， 在 于 它们 是 前 向 的 携带 依赖 。 如 果 
例子 中 的 两 个 循环 如 下 : 

DOI=1,N 

Sı ACI) = B(I) +C 
ENDDO 
DOI=1,N 
Sz D(I) = A(I-1) + E 
ENDDO 
它们 可 以 被 正确 地 合并 并 生成 
DOI=1,N 
S, A(I) = B(I) + C 
Sz D(I) = A(I-1) +E 

ENDDO 
因为 在 两 种 情况 下 Si 都 生成 S: 中 引用 的 所 有 A 的 值 ， 除 了 第 一 个 迭代 。 

前 边 循 环 合并 例子 中 的 问题 ， 在 于 合并 这 两 个 循环 把 一 个 前 向 的 真 依赖 转变 为 后 向 的 循 
环 携 带 的 反 依赖 。 换 句 话说， 依赖 的 源 点 和 汇 点 被 颠倒 了 。 这 明显 违反 由 基本 依赖 定理 ( 定 
理 2.2) 给 出 的 排序 限制 。 这 样 ， 任 何在 循环 合并 以 后 变 为 循环 携带 依赖 且 反 转 其 两 端点 的 前 
向 循环 无 关 依赖 ， 被 称 为 是 阻止 合并 的 。 . 


定义 6.3 在 两 个 不 同 循环 中 语句 间 的 循环 无 关 依 赖 ( 即 从 51 到 5) 是 阻止 合并 的 ， 
如 果 合 并 这 两 个 循环 导致 依赖 由 合并 后 的 循环 反 向 携带 (从 5s 到 51)。 
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显然 ， 阻 止 合并 和 阻止 并 行 化 的 依赖 代表 着 安全 性 和 有 利 性 的 考虑 ， 是 面向 并 行 性 通用 
代码 生成 算法 中 必须 考虑 的 因素 。 另 一 个 安全 性 方面 的 考虑 是 排序 : 合并 循环 而 不 违反 任何 
依赖 隐 含 的 排序 限制 必须 是 可 能 的 。 下 边 对 原来 例子 的 修改 说 明 这 个 条 件 : 
DO1=1,N 
Sı A(I) = B(I) +1 
S: C(I) = A(I) + C(I-1) 
S; D(I) = A(T) + C(1) 
ENDDO 
尽 可 能 地 分 布 该 循环 再 次 产生 三 个 子 循环 。 然而， 循环 间 的 依赖 图 已 经 改变 ， 如 图 6-8 
所 示 。 
合并 循环 Li 和 L2 必 然 导致 或 者 L; 在 Lz 前 执行 (如 果 合 并 后 的 
循环 首先 执行 )， 或 者 Li 在 Ls 后 执行 (如 果 合 并 后 的 循环 第 二 个 
执行 )。 任 一 顺序 都 违反 一 个 依赖 。 在 循环 分 布 和 循环 合并 中 ， 
都 必须 遵守 依赖 所 要 求 的 拓扑 排序 。 
总 结 起 来 ， 循 环 合并 有 两 个 安全 限制 : 
(1) 阻止 合并 的 依赖 限制 : 两 个 循环 不 能 被 合法 地 合并 ， 
如 果 它 们 之 间 存 在 一 个 阻止 合并 的 依赖 。 
(2) 排序 限制 : 两 个 循环 不 能 被 合法 地 合并 ， 如 果 它 们 之 间 存 在 一 条 循环 无 关 依赖 路 径 ， 
这 条 路 径 包 含 一 个 未 与 它们 合并 的 循环 或 语句 。 
虽然 不 作 显 式 的 证 明 ， 但 这 两 个 限制 足以 保证 循环 合并 的 安全 性 (不 同 于 那些 次 要 而 明 
显 的 条 件 ， 如 循环 有 相同 的 界 ， 等 等 ) 。 
尽管 阻止 合并 和 排序 限制 是 决定 循环 合并 安全 性 的 主要 约束 条 件 ， 但 它们 不 足以 保证 有 利 
性 。 对 于 任何 机 器 体系 结构 都 有 效 的 一 个 保证 有 利 性 的 最 小 要 求 ， 是 合并 不 能 破坏 并 行 性 一 一 
至 少 在 循环 合并 以 后 有 和 原来 一 样 多 的 并 行 语句 ， 否 则 合并 就 是 没有 好 处 的 。 这 样 的 要 求 看 
上 去 可 能 对 于 合并 是 很 容易 满足 的 ， 但 是 实际 情况 并 不 是 那样 。 
作为 循环 合并 减少 并 行 性 的 例子 ， 考 虑 下 边 的 一 对 循环 : 
L DOI=1,N 
A(I) = B(I) + 1 
ENDDO 
L DOI=1,N 
C(I) = A(I) + C(I-1) 
ENDDO 
Li; 不 包含 携带 依赖 ， 可 以 并 行 执行 ; Lz 有 一 个 依赖 环 ， 必 须 串 行 执行 。 这 两 个 循环 可 以 合 
法 地 被 合并 ， 但 是 因为 L: 必 须 串 行 执行 ， 合 并 循环 强制 L; 也 串 行 执行 ， 消 除了 并 行 的 机 会 。 任 
何 时 候 只 要 一 个 串 行 循环 被 合并 到 一 个 并 行 循 环 ， 就 会 损失 并 行 性 ， 这 提示 我 们 以 下 的 循环 
合并 限制 : 
(1) 分 离 限制 : 一 个 串 行 循环 不 应 和 一 个 并 行 循环 合并 ， 因 为 结果 必然 是 串 行 执行 的 ， 
减少 并 行 性 的 总 量 。 
然而 ， 仅 分 离 限制 不 足以 保证 在 并 行 性 情况 下 循环 合并 的 有 利 性 。 可 能 合并 两 个 并 行 循 
环 得 到 一 个 捉 行 循环 ， 如 下 面 例子 所 示 : 


DO I =1, N 





图 6-8 由 排序 限制 阻止 的 合并 
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Sı A(I+1) = B(I) +€ 
ENDDO 
DO I=1, N 
S2 D(I) = ACI) +E 
ENDDO 
任 一 循环 可 以 单独 并 行 运行 ， 但 是 如 果 它 们 被 合并 到 一 起 ， 合 并 后 的 循环 
00 I =1, N 
S; A(I+1) = B(I) +C 
Sy D(I) = A(I)+ E 
ENDDO 
携带 一 个 依赖 ， 阻 止 并 行 性 。 虽 然 这 些 依赖 可 以 用 对 齐 和 复制 来 处 理 ( 因 为 不 可 能 存在 一 个 
依赖 环 ， 否则 循环 合并 就 是 无 效 的 )， 为 简单 起 见 ， 我 们 将 假定 这 样 情况 下 的 合并 应 当 被 禁止 。 
这 样 我 们 引入 一 个 新 的 定义 来 涵盖 这 一 情形 : 


定义 6.4 ”两 个 不 同 循环 内 的 语 旬 间 的 一 条 边 被 称 为 阻止 并 行 性 的 ， 如 果 合 并 这 
两 个 循环 以 后 ， 该 依赖 被 合并 后 的 循环 携带 。 


这 个 定义 是 第 二 个 有 利 性 限制 的 基础 : 

(2) 阻止 并 行 性 的 依赖 限制 : 两 个 并 行 循环 不 应 被 合并 ， 如 果 它 们 之 间 存 在 一 个 阻止 并 
行 的 依赖 

在 花费 大 量 时 间 讨论 循环 合并 在 什么 情况 下 不 能 用 来 发 所 并 行 性 后 ， 现 在 可 以 提出 一 个 
合并 过 程 说 明 如 何 利用 合并 。 

带 类 型 的 合并 

我 们 将 从 一 个 严格 分 开 并 行 和 串 行 代码 的 代码 生成 模型 开始 ; 换 名 话说， 它 试图 通过 特 
环 合并 构造 尽 可 能 大 的 并 行 循环 ， 但 是 不 判定 什么 时 候 串 行 循环 可 以 和 其 他 串 行 循环 或 并 行 
循环 并 行 执行 。 在 这 个 模型 中 ， 每 个 并 行 循环 将 会 被 一 个 栅 障 操作 中 止 ， 所 有 必须 在 该 并 行 
循环 之 后 或 下 一 并 行 循环 之 前 执行 的 串 行 代码 将 直接 位 于 该 杨 障 之 后 。 在 这 个 模型 中 ， 代 码 
生成 的 中 心 任务 可 以 概述 如 下 : 

给 定 一 个 图 ， 其 中 边 表 示 依 赖 而 项 点 表示 循环 ， 使 用 正确 且 有 利 的 往 环 合并 生成 一 个 等 
价 的 程序 ， 使 得 其 中 的 并 行 循环 个 数 最 少 。 

我 们 可 以 把 这 个 问题 概括 为 带 类 型 的 合并 问题 : 


定义 6.5 一 个 带 类 型 的 合并 问题 是 一 个 五 元 组 P=(G,T, m, B, t), Hp 

(1) G=(V,E) 是 一 个 图 ， 

(2) 7 是 一 个 类 型 的 集合 ， 

(3) m:V>TH— POR. HER EV, mv) 是 v 的 类 型 ， 

(4) B 5 E 是 一 个 坏 边 的 集合 ， 

(5) to ET 是 对 象 类 型 。 i 

带 类 型 的 合并 问题 P 的 解 是 一 个 图 G'=(V', E')， 其 中 V' 是 由 V 按 以 下 限制 合并 判 
别 为 类 型 的 顶点 导出 : 

(1) 坏 边 限制 : 由 坏 边 连接 的 两 个 顶点 不 能 被 合并 ; 

(2) 排序 限制 ;由 一 条 包含 类 型 1* to 的 顶点 的 路 径 相连 的 两 个 顶点 不 能 被 合并 。 

带 类 型 合并 问题 的 最 优 解 有 最 小 数目 的 边 。 


N 
N 
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容易 看 到 ， 带 类 型 的 合并 是 并 行 合并 问题 的 一 个 模型 ， 顶 点 对 应 于 循环 ， 边 对 应 于 依赖 ， 
类 型 对 应 于 并 行 和 品行 ， 坏 边 对 应 于 阻止 合并 或 者 阻止 并 行 边 ， 以 及 一 个 特殊 的 类 型 并 行 。 
问题 的 最 优 解 拥有 最 小 数量 的 并 行 循环 ， 因 此 可 能 有 最 粗 的 粒度 。 

在 图 6-9 到 图 6-12 中 ， 我 们 给 出 由 Kennedy 和 McKinley[177] 提 出 的 算法 TypedFusion， 该 算 
法 能 够 在 一 个 包含 坏 边 和 多 种 类 型 结 点 的 图 中 产生 给 定 类 型 b 的 结 点 的 最 优 贪 禁 合 并 。 这 是 快 
速算 法 ， 在 最 坏 情 况 下 需要 O(N+E) 步 ， 其 中 N 是 顶点 的 数目 ，E 是 图 G 中 边 的 数目 。 因 为 任 
何 算法 至 少 人 遍历 图 一 遍 ， 这 明显 是 最 小 可 能 性 。 


procedure TypedFusion(G, T, type, B, to) 
1 G=(V, E) 是 最 初 的 带 类 型 图 
1/T 是 类 型 的 集合 
If type(n) 是 返回 节点 类 型 的 函数 
1/ B 是 坏 边 的 集合 
// to 是 我 们 要 为 之 找 出 最 小 合并 的 特定 类 型 
1/ 初始 化 
lastnum: =0; lastfused: =0; count(*]: =0; fused: =0; node[*]: =0; 
for eachjie = (m, n) EE do count{n]: = count{n] +1; 
for each “i An E V do begin 
maxBadPrev([n}: = 0; num[n]: =0; next[n]: =0; 
if count[n] =0 then W: =W U [n]; 
end 
1/ 对 类 型 to 的 工作 集合 ， 访 问 节 点 和 合并 节点 做 迭代 
while W + Ø do begin 
设 n 为 W 中 的 任意 节点 ; W:=W- {n}; t= typeln), 
Li: if t= t then begin // 一 个 该 类 型 的 节点 
/1/ 计算 需要 合并 的 节点 
S: if maxBadPrev[n] =0 then p: = fused; 


else p: = next[maxBadPrev[n]]; 
if p + 0 then begin // 和 在 p 的 节点 合并 
x: = node[p]; num[n]: = num[x]; 
update_successors(n, t); // 在 合并 前 访问 后 继 
合并 x 和 ln 并 把 结果 称 为 n; 
使 得 原来 从 x 出 发 的 边 现在 都 从 x 出 发 


end 
else begin // 把 第 一 个 节点 放 到 一 个 新 的 组 里 
creat_new_fused_node(n); 
update _successors(n, t); 
end 
end 
else begin // t * to 
create_new_node(n), 
update_succcessors(n, t); 
end 
end 
end TypedFusion 





图 6-9 带 类 型 的 合并 算法 
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procedure create_new_node(n) 


lastnum := lastnum + 1; 
num[n] : = lastnum; 
node[num{n]] :=n; 


end create_new_node 





图 6-10 在 归 约 图 中 创建 一 个 新 的 结 点 


procedure create_new_fused_node(n) 
create_new_node(n); 


1/ Wi An used RE 

if lastfused =0 then begin 
fused := lastnum, 
lastfused = fused; 

end 

else begin 
next{lastfused]) : = lastnum; 
lastfused = lastnum; 

end 


end create_new_fused_node 








图 6-11 创建 和 初始 化 一 个 新 的 合并 组 


procedure update_successors(n, t) 


12: for each node m such that (n, m) E E do begin 
count[m] : = count[m] — 1; 
if count[m] =0 then W: = WU {m}; 


if t + t then 
maxBadPrev[m] : =MAX(maxBadPrev[m], maxBadPrev[n]); 
else // t=to 
if type(m) + to or (n, m) E B then // bad edge 
maxBadPrev[m] :=MAX(maxBadPrev[m], num[n]); 
else // 等 类 型 ， 不 阻止 合并 
maxBadPrev(m] := MAX(maxBadPrev[m], maxBadPrev[n)); 


end 


end update_successors 





图 6-12 访问 后 继 、 加 入 工作 表 以 及 更 新 MaxBadPrey 


该 算法 的 基本 思想 是 ， 当 每 个 结 点 第 一 次 被 访问 时 ， 算 法 在 常数 时 间 内 确定 它 能 被 合并 
到 相同 类 型 的 一 个 确定 的 结 点 中 。 如 果 没 有 这 样 的 结 点 存在 ， 对 被 访问 结 点 分 配 一 个 分 离 的 
结 点 号 。 本 质 上 ， 从 图 6-9 到 6-12 的 算法 为 单个 选 定 的 类 型 执行 贷 禁 合并 。 


定义 6.6 ”我 们 定义 类 型 的 一 个 坏 路 径 为 一 条 从 类 型 为 ! 的 结 点 开始 的 路 径 ， 它 或 
者 包含 一 条 两 个 类 型 为 :的 结 点 间 的 坏 边 ， 或 者 包含 一 个 类 型 不 为 :的 结 点 。 
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算法 把 一 条 坏 路 径 看 作 一 个 坏 边 。 只 有 相同 类 型 的 结 点 才 考 虑 合并 。 这 个 计算 中 使 用 的 主 
要 数据 结构 是 maxBadPrev[n]， 对 图 中 的 每 个 顶点 4 都 作 计 算 。 对 于 原来 图 中 给 定 的 一 个 顶点 n， 
maxBadPrev[n] 是 合并 后 图 中 的 一 个 顶点 号 ， 该 顶点 是 与 n 类 型 相同 但 是 因为 在 该 顶点 (或 者 它 
表示 的 集合 中 的 某 些 顶 点 ) 和 n 之 间 存 在 一 条 坏 边 而 不 能 与 4 合并 的 顶点 中 编号 最 高 的 那个 顶 
点 。 显 然 ，n 不 能 和 maxBadPrev[n] 合 并 。 我 们 将 闸 明 它 也 不 能 和 任何 结 点 号 比 maxBadPrev[n] 
低 的 结 点 合并 。 因 此 它 能 合并 的 第 一 个 结 点 是 在 简化 图 的 编号 中 位 于 maxBadPrev[n] 之 后 的 第 
一 个 和 mn 类 型 相同 的 结 点 。 由 于 总 是 将 "与 这 样 的 结 点 合并 ，7ypedFusion 实 现 一 种 贪 禁 的 策略 。 

除了 maxBadPrev[n] ， 该 算法 还 使 用 下 面 的 中 间 量 

。num[n] 是 4 与 6 合并 的 结 点 集合 中 第 一 次 访问 的 结 点 的 号 。 换 名 话说 ， 就 是 在 输出 图 中 包 

含 n 的 合并 后 结 点 的 编号 。 

。jode 上 站 是 一 个 把 编号 映射 到 结 点 的 数组 ， 例 如 node[i 是 输出 图 中 第 ;个 集合 的 代表 结 点 。 

注意 node[numl[x]] =x. 

。lastnum 是 最 近 分 配 的 结 点 号 。 

。fused 是 图 中 类 型 为 1 的 第 一 个 结 点 号 。 

。lastfused 是 类 型 为 的 最 近 访 问 过 的 结 点 号 。 

。next[i] 是 合并 表 中 下 一 个 结 点 的 编号 ， 其 中 i 是 合并 表 中 的 一 个 结 点 号 。 

。W 是 将 被 访问 的 结 点 工作 集 . 

该 算法 有 点 类 似 于 拓扑 排序 。 它 从 初始 化 所 有 这 些 数 据 结构 ， 把 没有 前 驱 的 结 点 放 到 工 
作 表 W 中 开始 。 然 后 在 循环 L 中 ， 重 复 地 从 工作 表 删 除 一 个 结 点 。 如 果 该 结 点 不 是 需要 的 类 型 
1 ， 它 就 为 输出 图 建造 一 个 新 结 点 。 另 一 方面 ， 如 果 它 是 类 型 pg 的 ， 算 法 按 前 边 描述 的 那样 找 
到 可 与 它 合并 的 最 早 结 点 ， 或 者 ， 如 果 没 有 那样 的 结 点 存在 ， 它 建造 一 个 新 的 合并 图 并 且 把 
那个 组 加 到 合并 的 结 点 列表 的 最 后 。 

随 着 每 个 结 点 被 处 理 ， 所 有 的 依赖 后 继 被 访问 (在 过 程 update_successors 中 )， 这 样 为 这 
些 后 继 更 新 maxBadPrev 值 。 这 个 过 程 在 检测 到 一 个 后 继 的 所 有 前 驱 都 被 处 理 过 以 后 ， 就 把 它 
加 入 到 工作 表 了 多 中 。 

TypedFusion 达 到 一 个 最 优 的 时 间 复 杂 度 O(E+V)， 上 界 为 访问 选 定 类 型 的 每 个 新 结 点 时 ， 
选 出 正确 的 可 以 在 常数 时 间 内 合并 的 结 点 的 时 间 。 这 出 现在 语句 51 中 。 如 果 我 们 能 证 明 这 样 
选择 了 要 合并 的 正确 结 点 ， 则 利用 与 拓扑 排序 的 复杂 度 分 析 类 似 的 分 析 即 可 得 到 所 需 的 时 间 
上 界 。 

正确 性 为 了 证 明正 确 性 ， 我 们 必须 证 明 问题 定义 中 的 限制 是 得 到 保证 的 。 首 先 ， 算 法 明 
显 只 合并 类 型 为 特殊 类 型 的 结 点 。 为 了 证 明 算法 遵守 坏 边 限制 ， 我 们 必须 证 明 算 法 从 未 合并 
被 坏 边 连接 的 两 个 结 点 。 为 了 证 明 该 算法 满足 排序 限制 ， 我 们 必须 证 明 它 从 未 合并 由 一 条 经 
过 不 同类 型 结 点 的 路 径 连 接 的 两 个 结 点 。 这 些 都 可 由 选择 过 程 的 正确 性 得 到 证 明 一 一 如果 
maxBadPrev[n] 计 算 正 确 ， 我 们 将 不 会 与 一 个 存在 一 条 坏 路 径 (包含 一 个 不 同类 型 的 结 点 或 者 
一 条 坏 边 ) 的 结 点 合并 。 对 图 6-12 中 过 程 wpdate_successor 的 仔细 检查 显示 ， 在 访问 顶点 的 每 
个 后 继 m 时 ，maxBadPrev[m] 取 其 现 有 值 和 maxBadPrev[n] 的 最 大 值 ， 或 者 如 果 type(n) = 加 而 
(n, m) 是 一 条 坏 边 或 :ype(m) =zm， 则 到 合并 的 结 点 "的 编号 。 这 显然 产生 正确 的 值 。 

为 了 证 明 算法 得 到 贪 禁 解 ， 我 们 必须 证 明 它 把 类 型 为 mw 的 顶点 和 它 最 早 能 够 合并 的 结 点 
作 了 合并 。 这 是 因为 从 maxBadPrev[n] 之 前 的 任何 类 型 为 (的 合并 结 点 必然 有 一 条 坏 路 径 到 项 
fain, WR, 存在 一 条 坏 路 径 从 maxBadPrev[m] 到 m。 设 x 是 某 个 maxBadPrev[n] 之 前 的 类 型 为 1 
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的 合并 结 点 。 那 么 必然 有 一 条 从 x 到 maxBadPrev[n] 的 坏 路 径 ， 否 则 那 两 个 顶点 就 可 以 被 合并 。 
因为 + 和 合并 结 点 表 中 maxBadPrev[n] 后 边 的 第 一 个 结 点 合并 ， 那 么 该 顶点 必然 是 它 能 够 合并 
的 第 一 个 结 点 。 

最 优 性 为 了 证 明 该 算法 所 得 的 解 有 最 少 的 合并 顶点 ， 我 们 必须 证 明 该 贪 禁 解 具 有 这 个 性 
质 。 虽 然 我 们 不 去 形式 化 地 证 明 这 个 结果 ， 但 是 将 给 出 一 个 非 形式 化 的 论证 。 假 设 存在 一 个 
满足 问题 定义 但 是 有 着 比 7ypedFusior 计 算出 的 货 栖 集合 Ce 更 少 的 合并 组 的 集合 C。 那 么 在 C 中 
必然 有 一 个 第 一 组 ， 它 不 同 于 Ce 中 相应 编号 的 组 。 该 组 必然 是 贪 禁 组 的 一 个 子 集 ， 因 为 我 们 
把 不 能 和 先前 的 组 合并 的 所 有 顶点 都 放 到 了 贪 禁 组 中 。 这 样 我 们 可 以 把 贪 禁 组 中 的 所 有 顶点 
移动 到 集合 C 的 相应 组 中 ， 这 样 使 得 C 中 某 些 更 迟 的 组 成 为 不 同 于 Ce 中 的 第 一 个 组 。 如 果 持 续 
这 个 过 程 ， 我 们 只 会 缩小 C 使 得 C 的 大 小 和 Ce 相同 ， 因 为 我 们 是 把 C 中 较 后 组 中 的 元 素 移动 到 
较 前 的 组 里 去 。 这 样 C 就 不 能 比 Ce 小 。 

复杂 性 ” 像 我 们 前 边 说 过 的 那样 ， 这 个 算法 的 时 间 复 杂 性 是 O(E+ VV 的 ， 这 里 E 是 原来 图 
中 边 的 数目 而 VY 是 顶点 的 数目 。 这 可 以 通过 一 个 类 似 于 对 拓扑 排序 的 分 析 得 知 。 每 个 顶点 最 多 
可 以 从 工作 表 环 中 取出 一 次 ， 因 此 循环 二 里 的 例 程 和 调用 的 其 他 例 程 中 的 常数 时 间 工 作 需 要 
O(N) 时 间 。 惟一 需要 非常 数 时 间 的 地 方 在 update_successor, 其 中 每 个 给 定 结 点 的 后 继 被 访问 。 
因为 在 整个 计算 中 每 条 边 最 多 被 通过 一 次 ， 这 个 过 程 执行 任务 的 总 量 以 调用 数 OCV) 加 图 中 边 
的 数量 O(E) 为 界 。 这 样 渐 近 的 时 间 复 杂 度 上 界 是 O(N + E). 

为 了 了 解 这 个 划分 算法 是 如 何 工作 的 ， 考 虑 图 6-13 中 的 例子 。 当 算法 应 用 于 用 双环 标 出 
的 并 行 类 型 结 点 时 ， 它 会 产生 如 图 6-14 所 示 的 中 间 注 释 。 每 个 并 行 结 点 用 形式 如 


(maxBadPrev, p)— num 





图 6-13 一 个 子 循环 图 的 例子 图 6-14 tht = parallel (并 行 ) 的 例子 加 上 标注 后 的 图 


的 一 个 元 组 标记 ， 其 中 p 是 在 算法 中 计算 的 而 axm 是 赋 给 结 点 的 最 后 编号 。 原 图 中 的 顶点 用 带 
环 的 结 点 表示 。 串 行 类 型 的 结 点 由 一 个 单 环 标记 ， 由 算法 对 tf: 


(maxBadPreyv) > num 


以 外 类 型 的 结 点 计算 。 
合并 以 后 的 结果 如 图 6-15 所 示 ， 旁 边 是 新 的 结 点 编号 。 
注意 我 们 现在 可 以 令 io=sequential (#47) 而 再 次 使 用 算法 ?ypedFusion 来 合并 所 有 的 串 


LA 
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行 循环 。 我 们 不 是 一 定 需要 合并 它们 ， 但 是 这 对 于 了 解 需要 多 少 个 串 行 “ 段 ”是 很 有 用 的 。 
最 终 的 结果 如 图 6-16 所 示 。 





图 6-15 合并 并 行 循环 后 的 例子 图 6-16 合并 顺序 循环 后 的 例子 


需要 的 调度 是 : 

(1) 包含 原 循环 1 和 3 的 并 行 循环 

(2) 包含 原 循 环 2，4 和 6 的 串 行 循环 

(3) 包含 原 循环 5 和 8 的 并 行 循环 

(4) 包含 原 循 环 7 的 串 行 循环 

无 序 和 有 序 的 带 类 型 合并 

一 旦 我 们 发 展 了 类 型 合并 的 概念 ， 就 可 以 想像 很 多 它 的 应 用 。 本 章 后 边 将 会 给 出 一 个 重 
要 的 例子 。 现 在 我 们 考虑 处 理 不 相 容 循环 头 的 问题 。 合 并 两 个 有 着 不 相 容 循环 头 的 循环 可 能 
不 是 很 方便 并 且 也 不 一 定 有 什么 好 处 ， 因 为 它们 有 着 不 同 的 多 代 范 围 。 如 果 我 们 以 每 个 循环 
头 作 为 一 种 不 同 的 类 型 ， 则 可 以 通过 每 次 对 一 种 类 型 应 用 7ypedFusion 算 法 来 限制 只 对 有 相 容 
循环 头 的 循环 作 合并 。 

很 自然 会 问 ， 这 是 否 总 能 产生 总 数 最 少 的 结 点 ? 为 了 理解 这 个 问题 ， 考 虑 图 6-17 的 简单 
依赖 图 ， 它 显示 一 个 类 型 冲突 的 情况 。 虽 然 我 们 可 以 分 开 合 并 任 一 类 型 ， 但 是 我 们 不 能 两 种 
类 型 都 合并 ， 因 为 一 种 类 型 的 合并 会 产生 对 另 一 种 类 型 的 坏 路 径 。 这样 我 们 必须 从 两 种 类 型 
中 选择 一 种 进行 合并 。 

图 6-18 的 例子 显示 顺序 如 何 能 使 合并 的 质量 产生 差异 。 如 果 我 们 在 类 型 0 或 类 型 2 之 前 合 





类 型 0 类 型 


图 6-17 一 个 类 型 冲突 图 6-18 顺序 敏感 的 合并 问题 
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并 类 型 1， 就 会 对 类 型 0 和 类 型 2 都 产生 坏 路 径 ， 从 而 阻止 其 他 的 类 型 合并 。 然 而 ， 如 果 我 们 
选择 首先 合并 类 型 0， 将 仅 对 类 型 1 造成 坏 路 径 ， 但 是 仍然 允许 类 型 2 的 两 个 结 点 的 合并 。 第 一 
种 方法 总 共产 生 5 个 结 点 ， 而 第 二 种 方法 只 产生 4 个 结 点 ， 明 显 结果 较 好 。 

是 否 有 什么 方法 可 以 确定 按照 怎样 的 顺序 合并 类 型 最 好 ? 答案 是 肯定 的 ， 但 是 代价 很 高 。 
Kennedy 和 McKinley 已 经 证 明 这 个 算法 是 对 类 型 数目 的 NP 难 题 [176，177]。 幸 运 的 是 ， 类 型 
冲突 是 相当 少见 的 ， 所 以 一 个 好 的 选择 顺序 的 启发 式 方法 可 以 是 有 效 的 。 

对 于 有 序 的 带 类 型 合并 问题 ， 情 况 要 简单 得 多 。 在 这 种 情况 下 ， 类 型 可 以 根据 某 个 标准 
排 定 优先 级 ， 而 不 管 会 对 低 优先 级 的 类 型 造成 多 少 坏 路 径 ， 使 具有 更 高 优先 级 类 型 的 结 点 数 
量 达 到 最 少 总 是 更 加 重要 。 这 种 情况 下 ， 将 一 个 调用 7ypedFusion 的 简单 算法 按照 优先 级 降序 [269 
应 用 于 每 种 类 型 将 产生 “最 优 ” 结 果 一 一 即 对 于 每 种 类 型 而 言 ， 相 当 于 只 要 可 能 就 在 较 高 优 
先 级 给 出 类 型 合并 。 

一 个 在 实践 中 经 常 出 现 的 重要 的 有 序 的 带 类 型 合并 问题 有 表示 三 种 类 型 结构 的 结 点 : 

(1) 一 个 并 行 循 环 

(2) 一 个 串 行 循环 

(3) 不 在 任何 循环 内 的 单个 语句 
很 明显 ， 合 并 并 行 循环 总 是 最 好 的 。 因 为 合并 两 条 语句 没有 任何 好 处 ， 这 种 合并 只 是 简单 地 
把 它们 放 到 一 起 ， 而 合并 两 个 串 行 循环 可 以 减少 开销 ， 所 以 总 是 优先 进行 循环 的 合并 。 这 样 
对 这 三 种 类 型 就 有 一 个 清楚 的 优先 顺序 。 

实际 上 ， 类 型 的 全 序 是 很 难得 到 的 。 找 到 一 个 类 型 的 偏 序 要 典型 得 多 。 换 名 话说 ， 在 实 
践 中 出 现 的 合并 问题 ， 通 常 仅 有 少量 优先 规则 倾向 于 某 种 类 型 。 我 们 处 理 这些 问 题 时 ， 可 以 
通过 使 用 拓扑 排序 来 为 图 建立 一 个 全 优先 序 ， 然 后 按照 降序 来 调用 她 pedFusion。 

混杂 合并 

如 果 你 不 仅 希望 并 行 化 循环 ， 还 要 并 行 执行 两 个 串 行 循环 ， 或 者 并 行 执行 一 个 串 行 循 环 
和 一 个 并 行 循 环 ， 那 么 就 提出 了 另外 一 个 有 些 不 同 的 问题 。 某 种 程度 上 说 ， 这 里 的 问题 就 是 
找 出 所 有 可 以 和 另外 一 个 循环 并 行 执行 的 循环 ， 对 它们 或 者 进行 合并 ， 或 者 由 于 它们 之 间 没 
有 依赖 关系 。 这 个 模型 综合 数据 和 任务 并 行 性 的 特点 。 

算法 的 主要 思想 是 在 每 个 阶段 识别 出 一 个 混杂 集 ， 它 是 一 个 可 以 并 行 执行 的 循环 集合 。 
这 个 集合 可 能 包含 若干 并 行 循环 ， 它 们 可 以 被 合并 成 一 个 并 行 循环 ， 以 及 若干 可 以 和 并 行 循 
环 同 时 执行 的 串 行 循环 。 


定义 6.7 一 个 并 行 混杂 集 是 一 个 并 行 和 串 行 循 环 的 集合 ， 它 满足 两 个 条 件 : (1) 
混杂 集中 任意 两 个 并 行 循 环 之 间 没 有 阻止 合并 或 者 阻止 并 行 性 的 边 。(2) 混杂 集中 
任意 并 行 循环 或 串 行 循环 之 间 疫 有 执行 限制 〈 即 依赖 边 )。 


换 句 话说 ， 混 杂 集 中 仅 有 的 循环 间 依 赖 边 是 两 个 串 行 循环 间 的 边 ， 或 并 行 循环 间 既 不 是 ”所 
阻止 合并 也 不 是 阻止 并 行 性 的 边 。 如 果 混 杂 集 中 的 一 个 串 行 循环 依赖 于 另 一 个 ， 只 要 连接 它 
们 的 边 不 是 阻止 合并 的 ， 那 么 它 就 可 以 和 它 的 前 驱 合 并 。 

总 的 来 说 ， 在 一 个 混杂 集中 合并 申 行 循环 或 许 并 不 合乎 需要 ， 除 非 循环 间 有 依赖 。 如 果 
两 个 串 行 循 环 间 没 有 执行 限制 条 件 ， 它 们 就 可 以 〈 做 为 一 个 整体 ) 相互 并 行 执行 。 合 并 循环 
强制 一 对 循环 同时 在 同一 处 理 器 上 执行 ， 结 果 损失 并 行 性 。 如 果 两 个 串 行 循环 间 存 在 依赖 边 ， 
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那么 合并 这 两 个 循环 可 能 会 因为 内 存 层 次 结构 ( 见 第 8 章 ) 或 者 简化 的 执行 控制 而 节省 一 些 执 
行 时 间 。 然 而 ， 节 省 的 时 间 可 能 相对 较 小 。 

这 个 问题 可 以 通过 两 次 应 用 TypedFusion 来 解决 。 首 先 ， 所 有 结 点 被 视 为 一 个 类 型 ， 而 后 
边 的 边 被 定义 为 坏 边 : 

(1) 阻止 合并 的 边 

(2) 阻止 并 行 的 边 

(3) 连接 一 个 串 行 循 环 和 一 个 并 行 循环 的 边 

这 一 遍 将 生成 最 小 数量 的 混杂 集 ， 从 而 产生 最 少 的 栅 障 。 第 二 遍 应 用 TypedFusion 可 以 用 
于 合并 每 个 混杂 集 内 的 所 有 并 行 循环 ， 虽 然 这 不 是 必要 的 ， 因 为 根据 定义 一 个 混杂 集 内 的 所 
有 并 行 循环 都 可 以 被 合并 。 

虽然 这 个 方法 最 小 化 了 检查 点 栅 障 的 数量 ， 但 是 这 个 系统 中 对 串 行 循 环 的 处 理 可 能 仍 是 
不 令 人 满意 的 。 当 把 串 行 循环 分 裂 为 两 个 混杂 集 和 正确 的 大 小 划分 迭代 而 取得 更 好 的 负载 平 
衡 时 ， 可 能 有 一 个 很 大 的 品行 循环 将 支配 这 个 算法 生成 的 混杂 集 。 


6.3 紧 获 循环 套 

到 目前 为 止 ， 这 一 章 给 出 了 一 些 在 单个 循环 中 发 掘 并 行 性 的 技术 以 及 一 个 通过 改变 循环 
颇 序 提高 并 行 性 的 技术 (循环 交换 )。 本 节 将 开始 组 合 这 些 技 术 ， 着 上 腿 于 开发 一 个 在 任意 循环 
伐 套 中 发 掘 并 行 循环 的 通用 算法 。 为 达到 此 目标 的 第 一 步 是 处 理 紧 嵌 循环 技术 的 开发 。 
6.3.1 为 并 行 化 的 循环 交换 

循环 交换 是 一 种 很 有 价值 的 变换 ,: 因为 它 可 以 完全 改变 大 量 语句 的 执行 顺序 。 如 1.5.2 节 
所 指出 的 ， 并 行 化 给 循环 交换 (以 及 通用 的 变换 ) 提出 了 一 些 不 同 的 问题 。 特 别 是 ， 平 衡 并 
行 性 和 通信 以 及 同步 付出 的 代价 要 求 并 行 区 域 有 足够 大 的 粒度 以 克服 开始 和 同步 并 行 计算 的 
开销 。 换 句 话说， 一 个 成 功 的 并 行 分 解 必须 使 得 并 行 粒度 足够 细 以 提供 合理 的 负载 平衡 ， 同 
时 尽量 减少 通信 和 同步 的 代价 以 避免 影响 结果 并 行 性 。 

因为 循环 通常 执行 足够 多 时 间 来 提供 合理 的 负载 平衡 ， 把 这 个 原则 应 用 于 循环 做 套 通常 
意味 着 并 行 化 外 层 循 环 。 对 于 循环 交换 来 说 ， 这 个 原则 意味 着 依赖 无 关 的 循环 应 当 被 移 到 尽 
可 能 的 最 外 层 位 置 ， 只 要 那样 不 会 导致 它们 携带 依赖 。 这 和 向 量化 正 相 反 ， 那 里 目标 是 把 依 
赖 无 关 的 循环 移动 到 最 内 层 位 置 。 下 面 的 例子 说 明 这 个 区 别 

DOI=1,N 

DOJ =1, M 
A(I+1,J) = ACI,J) + B(1,J) 


ENDDO 
ENDDO 


外 层 (1) 循环 携带 一 个 依赖 环 ， 而 内 层 的 (J) 循环 没有 任何 依赖 。 对 于 向 量化 ， 这 个 
循环 顺序 是 合理 的 ， 因 为 它 允 许 内 层 循 环 被 向 量化 。 然 而 ， 对 于 粗 粒度 并 行 性 来 说 ， 这 个 顺 
序 是 有 问题 的 ， 因 为 只 有 内 层 循环 能 够 被 并 行 化 ， 它 可 能 在 运行 时 要 求 N 个 棚 障 同步 一 BT 
执行 的 外 层 循环 中 每 个 迭代 一 个 。 

另 一 方面 ， 如 果 并 行 循环 被 交换 到 最 外 层 的 位 置 (那里 它 仍然 没有 依赖 )， 


PARALLEL DO J = 1, M 
DOI=1,N 
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A(I+1,0) = A(I,J) + B(I,d) 
ENDDO 
END PARALLEL DO 
ABA EEA REPT Re EF A 
当然 ， 把 一 个 循环 移动 到 最 外 层 并 使 它 保持 无 依赖 并 不 总 是 可 能 的 。 例 如 ， 如 果 这 个 例 
子 稍 微 改 动 一 下 ， 
DOI=1,N 
DOJ =1, M 
A(I+1,J+1) = A(I,J) + B(I,J) 
ENDDO 
ENDDO 


(使 得 依赖 方向 向 量 成 为 (<,<) 而 不 是 (<,=)) 循环 交换 就 不 再 有 效 了 。 在 这 个 改动 过 的 例子 中 ， 
依赖 不 是 交换 敏感 的 ， 外 层 循 环 在 交换 后 仍然 携带 依赖 。 没 有 其 他 变换 的 帮助 ， 内 层 循环 并 
行 性 以 及 结果 所 需要 的 同步 操作 次 数 ， 是 我 们 能 够 得 到 的 最 好 的 结果 。 
DO I=1, N 
PARALLEL DO J = 1, M 
A(1+1,0+1) = A(I,J) + B(I,J) 
END PARALLEL DO 
ENDDO 
我 们 在 第 5 章 看 到 循环 倾斜 和 循环 交换 结合 可 以 在 这 个 例子 上 产生 内 层 循 环 并 行 性 ， 但 是 
内 层 循环 并 行 性 对 粗 粒度 并 行 是 不 能 令 人 满意 的 ， 除 非 我 们 在 内 层 循 环 中 有 足够 多 的 循环 揭 
代 能 使 得 每 个 处 理 器 运行 很 多 迭代 的 一 个 大 块 。 
这 些 例 子 中 自然 引出 的 问题 是 ， 什 么 时 候 一 个 代 套 内 的 循环 可 以 被 移动 到 最 外 层 位 置 且 
保证 是 并 行 的 ? 下 边 的 定理 回答 了 这 个 问题 。 


定理 6.3 ”在 一 个 紧 嵌 循环 套 中 ， 一 个 特定 的 循环 可 以 在 最 外 层 被 并 行 化 ， 当 且 
仅 当 该 代 套 的 方向 矩阵 的 这 一 列 仅 包含 “= ”项 。 

证 明 ”充分 性 : 显然 ， 其 方向 矩阵 列 中 仅 包 含 “=” 项 的 循环 可 以 在 最 外 层 被 并 
行 化 ; 它 能 被 移动 到 最 外 层 位 置 是 因为 在 它 内 层 的 循环 将 保持 同样 的 相对 顺序 且 方 
向 矩阵 中 的 所 有 向 量 仍然 保持 它们 的 最 外 层 非 “=” 位 置 全 为 “<” 项 。 因 为 只 有 
“=” 项 ， 故 此 循环 无 论 在 哪 一 层 都 不 携带 依赖 ， 包 括 最 外 层 。 这 样 按 定理 2.8 它 可 以 
被 并 行 化 。 

必要 性 : 现在 我 们 必须 证 明 仅 有 这 些 是 可 以 在 最 外 层 被 并 行 化 的 循环 。 考 虑 任 
何其 他 情况 。 如 果 这 一 列 包含 一 个 “> ”， 那 么 该 循环 不 能 被 移动 到 最 外 层 位 置 ， 因 
为 在 这 行 的 依赖 将 被 反 转 ( 见 定理 5.2)。 如 果 列 中 包含 一 个 “<”， 它 不 能 在 最 外 层 
被 并 行 化 ， 因 为 在 那 层 携 带 一 个 依赖 。 由 于 没有 其 他 可 能 的 项 ， 只 能 是 这 样 的 情况 ， 
当 在 该 列 中 仅 包 含 “=” 项 时 ， 循 环 能 够 被 移动 到 最 外 层 位 置 并 被 并 行 化 。 


由 此 定理 可 以 得 出 一 个 基于 方向 矩阵 的 紧 风 循环 套 的 通用 代码 生成 策略 : 

(1) 当 方 向 矩阵 包含 只 有 “=” 项 的 列 时 ， 任 选 一 个 有 这 样 列 的 循环 (最 外 层 这 样 的 循环 
是 一 个 合 平 逻辑 的 选择 ， 但 是 任 一 个 都 可 以 )， 将 其 移动 到 最 外 层 的 位 置 并 作 并 行 化 ， 然 后 从 
方向 矩阵 中 删除 它 的 列 。 继 续 该 步 又 直到 所 有 这 样 的 列 被 删除 为 止 。 
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(2) 一 旦 所 有 仅 含 “=” 项 的 列 被 消除 ， 选 出 它 的 方向 向 量 中 包含 “< ”项 最 多 的 循环 ， 
把 它 移动 到 剩 下 的 最 外 层 位 置 上 ， 为 它 生 成 一 个 串 行 循 环 。 删 除 这 一 列 ， 同 时 删除 表示 这 个 
循环 携带 的 依赖 的 行 〈 即 那些 在 新 的 最 外 层 位 置 包含 “< ”项 的 )。 删 除 这 些 行 可 能 产生 新 的 
全 为 非 “=” 的 列 ， 于 是 重复 从 步骤 (1) 开始 的 算法 。 

后 面 几 小 节 将 推广 这 个 算法 。 然 而 ， 这 个 简单 版 本 说 明 我 们 将 给 出 的 所 有 算法 的 操作 模 
式 : 重复 地 选择 一 个 循环 (不 管 是 并 行 的 还 是 串 行 的 ) 到 最 外 层 的 位 置 。 如 果 一 个 串 行 循环 
被 选 出 ， 它 应 当 是 在 剩余 的 循环 中 能 发 掘 出 最 多 并 行 性 的 循环 。 

下 面 三 个 循环 组 成 的 嵌 套 说 明 这 个 方法 : 

DO I=1, N 

DOJ=1,M 
DOK=1,L 
ACI+1,0,K) = A(I,J,K) + X1 
B(I,J,K+1) = BCI,J,K) + X2 
C(I+1,J+1,K+1) = C(I,J,K) + X3 
ENDDO 
ENDDO 
ENDDO 
LARED ERE 


<<< 


由 于 没有 哪 一 列 的 所 有 项 都 是 “=”， 没有 任何 循环 可 以 在 最 外 层 被 并 行 化 。 在 最 外 层 位 置 ，I 
循环 和 K 循 环 都 将 携带 两 个 依赖 ， 因 此 可 以 选择 任 一 循环 在 最 外 层 串 行 执行 。 选 择 I 循环 剩 下 
274) “一 个 方向 矩阵 [=《]， 这 将 使 J 循 环 并 行 化 而 人 迫使 K 循 环 串 行 执行 。 
DO IT=1, N 
PARALLEL DO J = 1, M 
D0 K = 1，L 
ACI+1,0,K) = A(I,J,K) + X1 
B(I,J,K+1) = B(I,J,K) + X2 
CCI+1, J+1,K+1) = C(I,J,K) + X3 
ENDDO 
END PARALLEL DO 
ENDDO 


这 个 简单 的 算法 发 掘 相当 数量 的 并 行 性 ， 但 很 显然 其 他 的 变换 〈 如 循环 分 布 ) 能 够 增加 
总 的 并 行 性 。 例 如 ， 如 果 该 循环 嵌 套 被 分 布 成 三 个 分 离 的 循环 ， 每 个 循环 将 拥有 两 维 并 行 性 。 
这 样 分 布 的 有 利 性 取决 于 目标 机 器 的 最 小 有 效 粒度 。 


6.3.2 循环 选择 
给 定 一 个 紧 人 能 循环 套 ， 并 行 性 生成 的 主要 挑战 在 于 生成 有 足够 粒度 的 最 大 并 行 性 。 应 对 这 
一 挑战 的 关键 在 于 选择 适当 的 循环 并 行 执行 。6.3.1 节 通过 展示 如 何 利用 循环 交换 提高 并 行 性 
来 对 付 这 个 挑战 作 了 介绍 。 这 一 节 将 扩展 那里 的 方法 ， 并 说 明 循环 选择 问题 是 非常 困难 的 。 
回忆 6.3.1 节 提出 的 非 形式 化 的 并 行 代 码 生 成 策略 。 
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(1) 当 有 可 以 并 行 执行 的 循环 时 ， 把 它们 移动 到 最 外 层 位置 ， 将 其 并 行 化 。 
(2) 选择 一 个 串 行 循环 ， 串 行 执行 它 ， 然 后 寻找 可 能 暴露 出 来 的 新 的 并 行 性 。 
图 6-19 给 出 这 个 方法 的 一 个 更 为 形式 化 的 说 明 。 


procedure parallelizeNest(N, success) 
1/ N 是 需要 并 行 化 的 循环 能 套 
/success 如 果 至 少 有 一 个 循环 被 并 行 化 了 则 返回 真 
1! M 是 该 循环 做 套 的 方向 矩阵 
1 Z 是 w 中 需要 处 理 的 循环 (Aik) 的 工作 表 


为 供 套 计算 方向 筷 阵 M 

设 Z 是 骨 套 N 中 循环 的 列表 ; 

success: = false; 

while L + @ do begin 

while 在 W 中 存在 一 列 ， 该 列 的 所 有 方向 都 是 “= ”do begin 

success: = true; 
上 := 对 应 于 所 有 非 “=” 列 中 的 最 外 层 循 环 
把 /从 LL 中 删除 ; 
在 最 外 层 位 置 为 (生成 -一 个 并 行 循环 ; 
从 MM 中 删除 ! 对 应 的 那 一 列 ; 


end; 


if L + OF H-success then begin 
/1/ 《启发 式 地 ) GER OER ETT TE 
- U 它 必须 是 可 以 移动 到 最 外 层 的 
1/ 它 可 以 导致 并 行 性 的 发 现 
select_loop_and_interchange(L); 
设 ! 是 L 中 的 最 外 层 循 环 ; 把 /从 LL 中 删除 ; 
为 ! 生 成 一 个 串 行 循环 ; 
从 MM 中 删除 ! 所 对 应 的 一 列 ; 
从 MM 中 删除 所 有 循环 ! 携 带 的 依赖 所 对 应 的 行 ; 
end 
end 


这 一 success then 恢 复 最 初 的 循环 ; /1/ 在 Paralielize 中 再 试 


end parallelizeNest 





图 6-19 并 行 化 循环 修 套 的 算法 


对 该 算法 而 言 ， 成 功 的 关键 步骤 是 步骤 5: 选择 串 行 执行 的 循环 的 启发 式 方法 。 为 了 说 明 
这 一 选择 的 重要 性 ， 考 虑 例子 


DO I = 2, N+) 
DO J = 2, M+l 
DOK=1, L 
ACI,0,K+1) = A(I,J-1,K) + ACI-1,0,K+2) 
ENDDO 
ENDDO 
ENDDO 


它 的 方向 矩阵 如 下 : 
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没有 仅 包 含 “=” 项 的 列 ， 因 此 没有 循环 可 以 立即 被 并 行 执行 。 另 外 ， 内 层 循环 有 一 个 
“> ”方向 ， 使 得 它 不 能 被 移动 到 最 外 层 。 因 此 ， 并 行 化 这 个 舍 套 的 第 一 步 就 必须 使 用 选择 的 
启发 式 方法 。 在 这 个 例子 中 ， 选 择 是 显然 的 一 最 外 层 循 环 必 须 在 某 处 被 串 行 执行 ， 因 为 它 
必须 覆盖 内 层 循环 的 “ >” 项。 一旦 这 样 做 了 ， 剩 余 的 循环 设 有 能 够 立即 被 并 行 化 的 ， 这 就 
需 再 次 使 用 启发 式 方 法 。 串 行 执行 剩 下 的 循环 中 的 任何 一 个 都 将 允许 另 一 个 并 行 执行 ， 因 此 
最 终 将 得 到 一 个 并 行 循 环 。 

DO I = 2, Nel 

DO J = 2, Mtl 
PARALLEL DO K = 1, L 
A(I,J,K+1) = A(I,J-1,K) + A(I-1,J,K+2) 
ENDDO 
ENDDO 

ENDDO 

是 否 可 能 找到 一 个 选择 的 启发 式 方 法 来 得 到 最 优 代码 ? 寻求 这 样 一 个 启发 式 规 则 似乎 是 
不 可 能 的 ， 因 为 不 难 证 明 选 择 适 当 的 循环 是 一 个 NP 完全 问题 (见习 题 6.2)。 目 前 ， 采 取 选 择 
有 最 多 “< ”方向 的 循环 这 一 简单 方法 ， 因 为 理论 上 这 样 一 个 循环 能 从 方向 矩阵 中 消除 最 多 
的 行 。 但 是 把 这 个 策略 应 用 到 下 面 的 方向 矩阵 就 不 对 了 : 

<<== 


<= < 


A 


<= = 


= <== 


= = < 


= = = < 


RERI EHAE HEL, ERTER ERAEN, AHAZTEA 
也 需要 被 串 行 执行 。 然 而 ， 如 果 三 个 内 层 循 环 被 串 行 执行 ， 最 外 层 循环 可 以 被 移动 到 最 内 层 
的 位 置 并 被 并 行 化 。 

一 个 避免 这 个 例子 所 指出 的 问题 的 方法 是 在 发 据 并 行 性 之 前 ， 优 先 选 择 必 须 串 行 执行 的 
循环 。 这 样 ， 如 果 有 一 个 循环 能 够 被 合法 地 移动 到 最 外 层 位 置 ， 且 存在 一 个 依赖 ， 循 环 对 于 
它 只 有 “< ”方向 ， 那 么 就 串 行 化 该 循环 。 如 果 有 多 个 这 样 的 循环 ， 它 们 全 部 需要 在 此 过 程 
中 某 处 被 串 行 化 。 

为 了 证 明 循 环 选择 是 一 个 NP 完全 问题 ， 可 将 循环 视 为 位 向 量 ， 对 于 最 外 层 位 置 将 由 循环 


携带 的 依赖 ， 在 向 量 的 相应 位 置 用 “1” 表 示 。 前 面 的 方向 矩阵 用 下 述 矩 阵 说 明 : 


1100 
1010 
1001 
0100 
0010 
0001 





然后 循环 选择 问题 就 等 同 于 在 循环 中 找到 一 个 最 小 基 ， 以 “逻辑 或 ”作为 合并 操作 。 而 这 个 
问题 就 和 最 小 集合 覆盖 问题 一 样 ， 是 一 个 NP 完全 问题 。 这 是 循环 选择 最 好 采用 启发 式 方法 的 
原因 。 

我 们 用 一 个 简单 的 例子 来 说 明 启 发 式 循环 选择 的 一 些 原则 ， 作 为 本 节 的 结束 。 考 虑 下 面 
类 似 模板 计算 的 代码 : 


D0 K = 2, L 
A(I,J,K) = A(I,J-1,K) + A(I-1,J,K-1) + A(I,J+1,K+1) + A(I-1,J,K+1) 
ENDDO 
ENDDO 
ENDDO 


这 段 代 码 有 四 个 依赖 ， 右 边 的 每 个 引用 有 一 个 。 注 意 第 三 个 引用 引起 一 个 反 依 赖 。 方 向 
矩阵 如 下 ， 右 边 引 用 的 依赖 向 量 按 照 从 上 到 下 的 顺序 排列 : 


这 个 例子 中 有 意思 的 一 点 是 最 内 层 的 循环 不 能 被 移动 到 最 外 层 的 位 置 ， 因 为 它 有 一 个 
“> ”项 。 因 此 ， 这 一 项 必须 被 一 个 在 外 层 串 行 执行 的 循环 的 某 些 项 覆盖 。 这 使 得 外 层 循环 必 
须 串 行 执行 。 另 外 ， 次 外 层 循环 也 必须 被 串 行 化 ， 因 为 方向 矩阵 的 第 一 行 表 示 通 过 捉 行 化 其 
他 任何 循环 都 不 能 满足 的 一 个 依赖 。 任 何 启 发 式 方法 都 应 该 发 现 这 些 事实 。 这 种 情况 下 ， 先 
前 描述 的 启发 式 方法 将 首先 选择 -循环 串 行 化 ， 因 为 第 一 个 方向 向 量 在 该 循环 中 仅 有 “= ”。 
然后 它 将 选择 I- 循 环 来 覆盖 内 层 循 环 。 结 果 是 
DOJ = 2, M 
DOI=2,N 
PARALLEL DO K = 2, L 
A(1,J,K) = A(I,J-1,K) + A(I-1,J,K-1) + A(1,J+1,K+1) + ACI-1,d,K+1) 
ENDDO 
ENDDO 
ENDDO 


很 明显 这 个 级 别 的 复杂 性 很 难 由 一 个 程序 员 来 处 理 。 


6.3.3 循环 反 转 
考虑 在 6.3.2 节 开始 的 例子 的 一 个 变形 
DOI=2,N+1 
DOJ=2, M+] 
D0K = 1，L 
A(I,J,K) = A(1,J-1,K+1) + A(I-1,9,K+1) 
ENDDO 
ENDDO 
ENDDO 


这 段 代 码 的 方向 向 量 在 最 内 层 循环 的 所 有 方向 都 是 “>“: 


N 
oo 
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= < > 
| 
这 为 提高 并 行 性 提供 了 一 个 机 会 。 虽 然 我 们 不 能 立即 把 内 层 循 环 移 到 最 外 层 循环 的 位 置 ， 
但 我 们 可 以 反 转 内 层 循环 的 迭代 方向 〈 即 从 L 执 行 到 1， 步 长 为 -1)， 它 反 转 该 循环 每 个 依赖 
的 方向 。 一 旦 这 个 变换 ( 称 为 循环 反 转 ) 执行 了 ， 我 们 就 可 以 把 循环 移动 到 最 外 层 的 位 置 ， 
得 到 下 边 的 方向 矩阵 : 
-| 


因为 现在 所 有 依赖 都 由 外 层 循环 携带 ， 串 行 执行 它 将 使 得 两 个 内 层 循 环 可 以 并 行 执行 。 
生成 的 代码 是 
DOK =L, 1, ~1 
PARALLEL DO I = 2, N+ 1 
PARALLEL DO J = 2, Mtl 
ACI,J,K) = A(I,J-1,K+1) + A(I-1,J,K+1) 
END PARALLEL DO 
END PARALLEL DO 
ENDDO 


这 个 例子 显示 循环 反 转 可 以 增加 循环 选择 启发 式 方法 的 选择 范围 一 一 它 不 再 强制 覆盖 每 个 
“>” 方 向， 如果 它 能 通过 反 转 该 循环 来 改变 这 些 方 向 。 


6.3.4 为 并 行 化 的 循环 倾斜 
在 第 5 章 ， 循 环 倾斜 被 用 来 将 “=” 方 向 转变 为 “<” 方 向 以 产生 内 层 循 环 并 行 性 。 这 个 
变换 对 生成 异步 并 行 性 也 可 以 同样 有 大助。 考虑 下 面 的 例子 : 
001=2,N+1 
DOJ = 2, M+] 
DOK =1,L 
ACL,0,K) = A(1,J=1,K) + ACI-1,J,K) 
B(1,J,K+1) = B(I,J,K) + ACI,J,K) 





ENDDO 
ENDDO 
ENDDO 
这 个 例子 的 方向 矩阵 是 
<= = 
= = < 


把 这 些 依赖 更 精确 地 表达 为 距离 矩阵 ， 得 到 
0 10 
100 
001 
000 
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由 于 每 个 循环 携带 一 个 依赖 ， 没 有 立即 生成 并 行 性 的 明显 方法 。5.9 节 描述 的 特 环 倾斜 可 
以 被 用 于 在 一 个 内 层 循环 上 把 “=” 方 向 转变 为 “< ”。 当 内 层 循 环 被 移动 到 最 外 层 并 被 串 行 
化 时 ， 它 可 能 使 得 很 多 其 他 循环 被 并 行 化 。 
例子 中 的 最 内 层 循 环 可 以 通过 使 用 替换 k=k+I+J 相 对 于 两 个 外 层 循环 被 倾斜 ,， 生 成 如 下 
代码 : 
DOI=2,N+1 
D0OJ=2, M+1 
DOK=sI+J+1, ltd +h 
ACI,J,K~I-J) = AC(I,J-1,K-I-J) + ACI-1,0,K-I-J) 
BCI,J,K-I-J+1) = BCI,J,K-I-J) + ACI,0,K-I-d) 


ENDDO 
ENDDO 
ENDDO 
这 段 代 码 变换 后 的 方向 矩阵 如 下 
<a < 


注意 现 最 内 层 循 环 在 每 个 对 应 于 携带 依赖 的 位 置 都 是 “< ”， 因 此 如 果 它 被 移动 到 最 外 层 
位 置 并 被 串 行 化 ， 将 使 得 内 层 循环 没有 携带 依赖 。 对 这 段 代 码 应 用 这 个 变换 得 到 一 个 循环 谷 
套 ， 其 内 层 的 两 个 循环 都 可 以 被 并 行 化 : 

DOk=5, N+M#1 

DO I = MAX(2,k-M-L-1), MIN(N+1,k-L-2) 
DO J = MAX(2,k~I-L), MIN(M + 1, k-I-1) 
ACT, J,K~I-J) = ACI, J-1,K-I-J) + A(I-1,J,K-I-J) 
B(I,J,K~I-J+1) = B(I,J,K-I-J) + ACI,d,K-I-J) 
ENDDO 
ENDDO 

ENDDO 

像 我 们 将 会 看 到 的 那样 ， 循 环 倾斜 有 两 个 对 于 并 行 化 很 关键 的 性 质 。 首 先 ， 它 可 以 用 于 
把 倾斜 后 的 循环 变换 成 可 以 交换 到 最 外 层 位 置 的 循环 而 不 改变 程序 含义 。 第 二 ， 它 可 以 用 于 [281 
以 这 样 一 种 方法 变换 倾斜 后 的 循环 ， 在 向 外 交换 后 ， 它 将 携带 先前 未 倾斜 时 该 循环 携带 的 所 
有 依赖 。 

这 两 个 性 质 都 是 因为 相同 的 原因 所 致 。 我 们 从 前 面 的 讨论 了 解 到 一 个 循环 可 以 被 移动 到 
最 外 层 的 位 置 ， 如 果 在 方向 矩阵 中 它 的 列 的 所 有 项 是 “=” 或 者 “< "。 如 果 一 个 循环 在 某 个 
依赖 上 有 方向 “> ”， 那 么 这 个 依赖 必须 被 一 个 外 层 循环 携带 。 因 此 ， 如 果 相 对 于 这 个 外 野 循 
环 用 一 个 足够 大 的 常数 k 来 倾斜 目标 循环 ， 我 们 就 能 够 把 方向 转变 为 “=” 或 者 “<“， 这 就 证 
明了 第 一 个 属性 。 

第 二 个 属性 用 相同 的 论证 可 以 得 到 。 对 于 外 层 循 环 携带 的 每 一 个 依赖 ， 在 携带 循环 的 列 
中 总 有 一 个 正 的 距离 。 相 对 于 携带 循环 ， 以 一 个 足够 大 的 因子 倾斜 该 循环 可 以 保证 被 倾斜 循 
环 在 距离 矩阵 中 的 列 只 有 大 于 零 的 项 。 因 此 ， 这 个 循环 被 移动 到 最 外 层 的 位 置 时 将 携带 所 有 
的 依赖 。 
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这 些 观 察 导致 我 们 得 出 一 个 选择 循环 的 启发 式 方法 ， 用 于 图 6-19 具 体 实现 循环 倾斜 的 并 
行 化 算法 中 。 这 个 启发 式 方法 中 使 用 的 策略 是 尝试 最 多 串 行 化 一 个 外 层 循 环 而 在 下 一 层 循 环 
中 找到 并 行 性 。 而 且 ， 如 果 可 能 的 话 ， 试 图 在 最 外 层 的 位 置 并 行 化 循环 。 步 骤 是 首先 尝试 找 
到 一 个 循环 ， 它 可 以 覆盖 当前 最 外 层 的 循环 且 可 以 被 移动 到 最 外 层 的 位 置 。 如 果 能 够 找到 这 
样 一 个 循环 ， 即 可 将 其 串 行 化 使 得 在 下 一 步 对 当前 的 外 层 循环 并 行 化 成 为 可 能 。 

如 果 第 一 次 尝试 失败 ， 那 么 我 们 将 尝试 循环 倾斜 。 如 果 我 们 能 够 相对 于 外 层 循 环 倾斜 茶 
个 循环 并 把 它 交换 到 最 外 层 位 置 ， 我 们 将 这 样 做 。 如 果 不 能 ， 我 们 试图 找到 可 以 移 到 两 个 最 
外 层 位 置 的 一 对 循环 ， 且 内 层 循环 可 以 相对 于 外 层 循环 被 倾斜 。 最 后 ， 如 果 这 样 做 也 失败 了 ， 
我 们 选择 串 行 化 这 样 一 个 循环 ， 它 能 够 被 移动 到 最 外 层 并 能 够 覆盖 最 多 的 其 他 循环 。 图 6-20 
中 给 出 这 个 选择 的 启发 式 方法 。 


procedure select_loop_and_interchange(L) 
ML Fee AR REE 
1/ 返回 的 最 外 层 循 坏 需要 被 串 行 化 执行 
Rh hb, HELP RRMA — ARA; 
if bo, d (BRA) ROTEL —7P BY eB a) Bl Be SP Re BE EB Te, 
then 把 /交换 到 最 外 层 位 置 ; 
else if EEL, 中 的 任意 一 个 then 把 4 留 在 最 外 层 位 置 上 ; 


else begin 
设 5 和 /是 最 外 层 的 一 对 循环 
C) 4 可 以 被 合法 地 移动 到 最 外 层 的 位 置 
(2) 4 可 以 被 合法 地 移动 到 次 最 外 层 的 位 置 
(3) 24 和 在 距离 矩阵 中 都 是 常量 距离 ; 
这 这 样 一 对 循环 存在 then begin // 尝试 倾斜 
把 1 交换 到 最 外 层 位 置 ; 
把 /相对 于 /按照 如 下 方法 倾斜 
(a) 4 可 以 被 光 换 到 4 的 外 层 
(b) 1 在 距离 矩阵 中 每 个 人 口 相 应 于 1 在 最 外 层 携带 的 循环 至 少 为 1 
把 4 交换 到 最 外 层 位 置 ; 
end 
else begin // 为 吊 行 化 找到 一 个 covering 的 循环 
/ 选择 一 个 有 机 会 发 掘 并 行 性 的 循环 
上 := 最 外 层 的 循环 并 且 具 有 以 下 属性 : 
(a) 可 以 被 移动 到 最 外 层 位 置 
(b) 必须 被 串 行 化 (如 果 存 在 一 个 这 样 的 循环 ) H 
(0) 在 它 那 一 列 中 有 最 多 的 “< ”方向 ; 
交换 ! 到 最 外 层 的 位 置 ; 
end 
end select_loop_and_interchange 





图 6-20 用 循环 倾斜 的 选择 启发 式 算法 
注意 select_loop_and_interchange 不 试图 相对 于 一 个 以 上 的 循环 进行 倾斜 但 是 能 够 很 容 
易 把 它 扩展 成 那样 。 下 边 的 代码 能 够 说 明 如 何 把 该 算法 用 于 循环 倾斜 : 
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DOK = 1，L 
D0 J=1, M 
D0 I=1, N 
A(I+1,J+1,K+1) = A(I,J,K+1) + A(1,J+1,K) + ACI+1,0+1,K) 
ENDDO 
ENDDO 
ENDDO 


该 循环 的 方向 矩阵 是 


WW 
1 A A 


<= 


显然 ， 所 有 距离 都 是 常数 〈1 或 者 0)。 最 外 层 的 循环 不 覆盖 任何 其 他 循环 ， 因 此 我 们 选择 78? 
相对 于 外 屋 循 环 倾斜 中 间 循 环 ， 使 用 替换 j=J+K。 循 环 中 所 有 对 于 J 的 引用 被 替换 为 j-K。 283 
通过 这 些 赫 换 ， 变 换 后 的 循环 幅 套 变 成 
DOK=1,L 
DO j = K+1, K+M 
DOI=1,N 
ACI+1, j-K+1,K+1) = A(I,j-K,K+1) + A(I,j-K+l,K) + A(I+1,j-K+1,K) 
ENDDO 
ENDDO 
ENDDO 


这 个 循环 被 修改 过 的 方向 矩阵 是 














当 它 被 交换 到 最 外 层 位 置 ， 两 个 内 层 循环 都 可 以 被 并 行 化 ， 虽 然 内 层 循 环 仍然 可 以 串 行 
执行 ， 以 便 优 化 内 存 层 次 结构 性 能 ( 像 我 们 在 下 一 小 节 将 看 到 的 那样 ): 


DO j = 2, L+M 
PARALLEL DO K = MAX(1,j-M), MIN(L,j-1) 
00 T= 1, N 
ACT+1, j-K+1,K+1) = A(I,j-K,K+1) + ACT, J-K+1,K) + ACI+1, j-K+1,K) 
ENDDO 
ENDDO 
ENDDO 


图 6-20 中 的 循环 选择 启发 式 方法 在 次 最 外 层 循 环 寻找 并 行 性 ， 但 所 得 到 的 并 行 性 不 一 定 
是 负载 平衡 的 。 在 我 们 的 例子 中 ,K- 循 环 执行 的 迭代 次 数 是 从 1 到 L 之 间 的 可 变数 和 目 。 然 而 ， 
在 异步 并 行 性 的 情况 下 ,不 像 向 量 并 行 那样 ， 这 并 不 是 一 个 很 大 的 问题 ， 因 为 大 多 数 并 行 循 
环 都 是 自 调度 的 ， 可 以 处 理 可 变数 量 的 工作 。 在 10.5 节 我 们 将 再 回 到 这 个 主题 。 


6.3.5 MFI 
循环 交换 、 循 环 倾斜 以 及 循环 反 转 都 是 称 为 么 模 变换 的 更 为 一 般 的 一 类 变换 的 例子 。“ 么 [284| 
模 ” 一 词 是 从 线性 代数 中 借用 的 ， 它 描述 一 个 置换 它 的 域 而 不 改变 域 大 小 的 映射 《或 矩阵 )。 
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定义 6.8 一 个 矩阵 T 表 示 的 变换 是 么 模 变 搁 ， 如 果 
(1) T 是 方 阵 ， 

(2) T 中 所 有 元 素 都 是 整数 ， 

(3) T 的 行列 式 的 绝对 值 为 1。 


如 果 和 矩阵 T, 和 Ts 都 是 乏 模 矩阵 ， 那 么 它们 的 乘积 T!* T: 也 是 么 模 和 矩阵 (两 个 方 阵 的 乘积 是 
AM; 它 的 元 素 都 是 整数 ， 而 整数 的 乘积 以 及 和 也 都 是 整数 ， 两 个 矩阵 的 乘积 的 行列 式 是 两 
个 矩阵 的 行列 式 的 乘积 )。 换 名 话说 ,任何 么 模 变 换 的 组 合 仍 是 乏 模 变换 。 

乏 模 变换 理论 已 被 用 于 支持 非常 有 效 的 目标 制导 的 并 行 化 策略 ( 见 Banerjee[36] 以 及 Wolf 
和 Lam[277])。 很 多 这 样 一 些 策略 是 使 用 方向 矩阵 方法 的 更 为 形式 化 的 版 本 ， 因 此 我 们 在 这 里 
不 进一步 讨论 它们 。 

6.3.6 基于 有 利 性 的 并 行 化 方法 

由 于 有 利 的 并 行 化 有 最 小 粒度 的 要 求 ， 也 因为 在 并 行 代码 生成 中 有 多 种 选择 ， 实 践 中 必 
须 采 用 某 种 方法 来 估计 不 同 代码 排列 的 代价 。 我 们 在 Rice 大 学 做 的 一 个 研究 使 用 一 种 非常 有 
效 的 策略 来 找 出 Fortran 程 序 中 可 以 并 行 化 的 循环 。 这 个 策略 在 一 些 现 有 商用 编译 器 无 法 并 行 
化 的 循环 上 取得 成 功 。 可 惜 一 旦 这 些 循环 被 并 行 化 ， 运 行 速度 反而 比 先前 慢 很 多 ， 因 为 缺乏 
足够 的 并 行 性 粒度 。 

因此 ， 需 要 某 种 形式 的 性 能 评估 ， 使 得 并 行 代码 生成 有 效 。 我 们 将 考虑 使 用 一 个 静态 性 
能 评估 函数 ,该 函数 可 以 被 用 于 任何 代码 段 评 估 代 码 段 的 运行 时 间 。 这 样 一 个 函数 不 必 是 很 
精确 的 ， 但 是 它 应 能 够 从 两 种 代码 排列 中 选择 出 较 好 的 一 种 。 在 开发 静态 评估 函数 时 ， 关 键 
的 考虑 是 代码 段 中 内 存 引 用 的 代价 以 及 并 行 循环 的 粒度 是 否 足以 使 并 行 化 是 有 利 的 。 

在 代码 生成 时 使 用 代价 消 数 来 评估 循环 媒 大 ,的 一 种 方法 是 考虑 所 有 可 能 的 排列 和 并 行 化 ， 
然后 选 出 最 好 的 一 种 。 但 这 个 方法 是 不 实际 的 ， HAA. A, PARROT SRE 
内 循环 的 个 数 成 指数 关系 ， 且 代价 评估 自身 的 代价 通常 也 很 大 ， 使 得 这 一 策略 慢 得 无 法 忍受 。 
第 二 ， 循 环 赂 套 中 很 多 循环 的 上 界 在 编译 时 是 未 知 的。 这 样 ， 精 确 地 评估 运行 时 间 是 不 可 能 
的 。 可 以 生成 一 些 不 同 的 循环 排列 ， 并 在 运行 时 选择 一 个 最 好 的 ， 用 这 样 的 方法 可 以 克服 这 
种 策略 的 缺点 ， 但 是 排列 的 数目 可 能 会 导致 代码 大 小 的 爆炸 。 

因为 这 些 原 因 ， 基 于 代价 函数 本 身 的 性 质 ， 通 常 只 考虑 可 能 代码 排列 的 一 个 子 集 。 作 为 
例子 ， 我们 给 出 一 个 代码 生成 的 启发 式 方法 ， 它 在 选择 一 个 紧 候 循环 套 的 正确 排列 时 ， 主 要 
考虑 内 存 引 用 的 代价 。 这 一 方法 是 基于 Kennedy 和 McKinley 的 工作 [175]。 

我 们 从 开发 循环 侯 套 中 最 内 层 循环 的 代价 度量 Ci 开始 。 对 于 最 内 层 循 环 ， 这 个 代价 基本 
上 就 是 这 个 循环 产生 的 高 速 缓存 不 命中 次 数 的 上 界 。 我 们 把 这 个 度量 叫做 循环 代价 。 为 了 估 
价 一 个 给 定 循环 的 循环 代价 ， 我 们 执行 下 边 的 三 步 : 

(1) 把 循环 体内 的 所 有 引用 划分 为 引用 组 。 两 个 引用 之 间 如 果 存 在 一 个 循环 无 关 的 依赖 
或 者 常数 距离 的 携带 依赖 ， 则 它们 属于 同一 个 组 。 直 觉 上 ， 同 一 个 引用 组 中 ， 第 一 个 引用 发 
生 的 高 速 缓存 不 命中 应 是 该 组 经 历 的 惟一 的 高 速 缓存 不 命中 ， 因 为 第 二 个 引用 会 在 高 速 缓存 
内 找到 所 需 的 行 。 

(2) 对 于 每 个 引用 组 ， 确 定 对 相同 引用 的 访问 是 否 是 (a) 循环 不 变量 ，(b) 单位 跨 距 ， 
(c) 非 单位 跨 距 。 对 于 情况 (a) 令 该 组 的 引用 代价 为 1， 因 为 对 于 该 组 ， 在 整个 循环 中 只 会 
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遇 到 一 次 高 速 缓存 不 命中 。 对 于 情况 〈(b) 令 该 组 的 引用 代价 是 选 代 次 数 除 以 高 速 缓存 行 的 大 
小 〈 以 所 引用 类 型 的 数据 项 为 单位 )， 因 为 存在 高 速 缓存 行内 的 重用 。 对 于 情况 (c), BEE 
高 速 缓存 行内 没有 重用 ， 令 该 组 的 代价 等 于 循环 内 的 迭代 次 数 。 

(3) 对 于 最 内 层 循环 ， 令 循环 的 代价 等 于 各 组 的 引用 代价 的 和 乘 以 循环 总 的 执行 次 数 。 
这 基本 上 等 于 各 外 层 循环 的 循环 界 的 乘积 。 

作为 例子 ， 考 虑 和 矩阵 乘法 的 最 内 层 循 环 ; 

DOI=1,N 

DOJ=1, N 
DOK=1, N 
C(1,J) = C(1,J) + A(1,K)*B(K,J) 
ENDDO 
ENDDO 

ENDDO 
当 K- 循 环 是 最 内 层 循环 时 5 的 引用 代价 是 1， 因 为 它 是 循环 不 变量 。A 的 引用 代价 是 N， 因 为 它 
不 是 单位 跨 距 的 ，B 的 引用 代价 是 MWL， 其 中 由 于 单位 跨 距 ，!L 是 高 速 缓 存 行 大 小 。 因 此 K- 循 环 
总 的 循环 代价 是 中 (1+1VL)+N:。 当 J- 循 环 是 最 内 层 循环 时 ， 它 的 代价 是 2N+N ， 因 为 C 和 B 的 引 
用 是 非 单位 跨 距 ， 并 且 A 的 引用 是 循环 不 变量 。 当 I- 循 环 是 最 内 层 的 时 候 ， 我 们 有 两 个 单位 跨 
距 引 用 组 和 一 个 循环 不 变量 ， 代 价 为 2NL+Nz。 这 样 ，I- 循 环 有 最 低 的 循环 代价 ， 因 此 从 高 
速 缓 存 重用 的 观点 看 最 适合 作为 最 内 层 循环 。 当然, 这 个 符号 值 的 比较 假定 上 界 很 大 。( 否则 ， 
选 代 数目 就 会 很 小 而 这 样 循环 顺序 就 不 重要 了 。) 表 6-1 汇 总 循环 代价 。 


表 6-1 循环 代价 汇总 


内 部 循环 索引 成 本 
I 2N2/L+N2 
J 2N3+N2 
K N3(1+1/L )+Nz 


为 了 找到 一 个 最 好 的 全 序 ， 我 们 简单 地 按 循环 代价 增加 的 顺序 从 最 内 层 到 最 外 层 排列 循 
环 ， 如 果 高 速 缓 存 足 够 大 ， 则 理论 上 内 层 循环 重用 也 可 以 是 外 层 循 环 重用 。 这 意味 着 为 了 得 
到 最 好 的 高 速 缓存 性 能 ， 应 当选 择 下 边 的 循环 顺序 : 
DOJ=1,N 
DOK =1,N 
DOI=1,N 
C(1,d) = C(I,d) + ACI,K)*B(K,J) 
ENDDO 
ENDDO 
ENDDO 
即使 外 层 循 环 高 速 缓 存 重 用 无 法 得 到 ， 它 仍 可 能 通过 循环 分 段 来 获得 。 
一 旦 通过 循环 代价 的 启发 式 方法 得 到 想 要 的 循环 顺序 ， 下 一 步 则 是 重新 排列 循环 ， 使 之 
尽 可 能 接近 想 要 的 顺序 ， 尽 管 有 时 不 可 能 得 到 恰好 是 我 们 想 要 的 循环 顺序 ， 因 为 某 些 排列 可 
能 是 非法 的 。 图 6-21 给 出 一 个 重 排 循环 的 算法 。 
容易 证 明 ， 如 果 存 在 一 个 合法 的 排列 使 得 我 们 想 要 的 最 内 层 循环 正好 在 最 内 层 位 置 ， 这 
个 算法 就 可 以 找 出 这 样 一 个 排列 ， 使 得 我 们 想 要 的 循环 恰 在 最 内 层 [176]。 这 个 基于 内 存 的 循 
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环 交 换算 法 是 一 个 将 有 利 性 信息 加 入 代码 生成 策略 中 的 启发 式 方法 ， 且 不 会 导致 指数 级 执行 
时 间 。 实 验证 明 它 在 实践 中 是 很 有 效 的 [176]。 


N 
00 
~ 


procedure select_permutation(O, P) 

I input: 一 个 希望 得 到 的 循环 排列 顺序 O = {i iz, .…, EAD 

/ 循环 的 初始 方向 矩阵 忆 

A 输出: 一 个 靠近 的 排列 P 

P:=@; 

for i= 1 to n do begin 
在 0O 中 选择 最 左边 的 循环 ! 使 得 {Pi, Pa …, Poss DEA TEER J el RS BE: 
MOP BRE: 
把 附加 在 P 的 后 边 ， 这 样 它 就 变 成 Pi;; 


end 


end select_permutation 





图 6-21 选择 一 个 接近 的 排列 


一 且 我 们 有 了 按照 最 优 内 存 顺 序 排列 的 循环 ， 并 行 代码 生成 系统 可 以 指望 将 内 层 循环 标 
记 为 串 行 执行 的 ， 如 果 它 能 够 在 高 速 缓存 方面 得 到 好 的 性 能 的 话 一 一 也 就 是 说 ， 如 果 它 被 并 
行 化 ， 可 能 会 失去 跨 距 为 1 的 访问 。 这 个 标记 将 会 阻止 循环 被 并 行 化 以 及 从 最 内 层 位 置 移出 。 
如 果 这 是 仅 有 的 并 行 循 环 ， 一 个 折 中 是 对 其 作 循 环 分 段 ， 并 将 按 分 段 迭 代 的 循环 交换 到 外 层 
并 行 执行 。 当 然 ， 只 有 当 循 环 有 足够 的 迭代 ， 可 以 同时 利用 跨 距 为 1 的 访问 并 提供 足够 的 并 行 
性 以 得 到 显著 的 加 速 时 ， 这 样 做 才 是 可 行 的 。 

将 此 策略 加 入 代码 生成 算法 ParallelizeNest 相 当 容 易 ， 因 此 我 们 不 在 这 里 给 出 修改 过 的 
算法 。 
6.4 非 紧 内 循环 套 

当 循 环 在 最 外 层 是 非 紧 夏 的 ， 且 最 外 层 的 循环 不 能 被 直接 并 行 化 的 时 候 ， 最 大 限度 的 短 
环 分 布 可 以 是 一 个 有 效 的 变换 ， 因 为 它 产 生 一 个 循环 集合 ， 每 一 个 都 可 能 是 紧 风 的。 如 果 有 
非 紧 嵌 的 循环 产生 ， 是 因为 有 涉及 某 个 语句 和 某 个 内 层 循环 的 紧 依 赖 环 ， 在 那 种 情况 下 串 行 
化 外 层 循环 并 继续 处 理 可 能 较 好 。 

在 这 一 节 ， 我 们 考虑 一 个 代码 生成 策略 ， 在 其 中 首先 尝试 最 大 循环 分 布 ， 然 后 用 多 层 循 

288] 环 合并 增加 粒度 。 


6.4.1 多 层 循 环 合并 
当 处 理 循 环 霸 套 的 时 候 ， 合 并 问题 变 得 更 为 困难 ， 因 为 每 个 循环 嵌 套 可 能 有 不 同 的 最 优 
排列 。 如 果 我 们 假设 仅 合并 在 循环 分 布 前 原先 合并 的 循环 ， 那 么 不 同 的 循环 排列 可 能 干扰 循 
环 合并 。 例 如 ， 考 虑 下 面 的 循环 嵌 套 : 
DOI=1,N 
DOJ=1, M 
A(I,J#1) = ACI, J) +C 
B(I+1,0) = B(I,J) +D 
ENDDO 
ENDDO 
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在 循环 分 布 以 后 ， 很 明显 每 个 语句 的 外 层 循 环 恰好 不 同 : 


PARALLEL DO I = 1, N 
DO J=1, M 
A(I,d+1) = A(I,J) +€ 
ENDDO 
END PARALLEL DO 
PARALLEL DO J = 1, M 
DOI=1,N 
B(I+1,J) = B(I,J)+ 0 
ENDDO 
END PARALLEL DO 


虽然 每 个 戏 套 有 外 层 循 环 的 并 行 性 ， 这 两 个 嵌 套 更 难 合并 ， 因 为 外 层 循环 有 不 同 的 循环 头 和 
不 同 的 循环 选 代 界 。 另 外 ， 由 于 循环 索引 变量 的 数组 下 标 位 置 不 同 ， 出 于 内 存 层次 结构 的 考 
虑 ， 合 并 这 两 个 循环 可 能 是 不 明智 的 。 
已 经 证 明 包含 循环 交换 的 循环 合并 在 循环 个 数 上 是 NP 完 全 问题 。 下 面 的 循环 说 明 这 个 问 
题 如 此 困难 的 原因 之 一 : 
DOI=1, N 
DOJ=1, M 
A(I,J) = ACI, J) + X 
B(I+1,J) = A(I,J) + B(I,J) 
C(1,J+1) = A(I,J) + C(I,d) 
D(I+1,J) = B(I+1,J) + C(1,J) + D(I,J) 
ENDDO 
ENDDO 


PERERA AHF PAS TB a. PEDO ER: 
DO 1 = 1, N! 可 以 并 行 执行 
DOJ= 1, M! 可 以 并 行 执行 
A(T,d) = A(1,J) +X 
ENDDO 
ENDDO 
DO 1 = 1, N! 串 行 执行 
DOJ = 1, M! 可 以 并 行 执行 
B(I+1,J) = A(I,J) + B(I,J) 
ENDDO 
ENDDO 
00 【了 = 1, N! 可 以 并 行 执行 
DOJ=1, M! 串 行 执行 
C(I,J+1) = A(I,J) + C(I,J) 
ENDDO 
ENDDO 
00 I = 1, N! 串 行 执行 
D0 J = 1, M! 可 以 并 行 执行 
D(I+1,J) = B(I+1,J) + C(1,J) + D(I,J) 
ENDDO 
ENDDO 


这 个 循环 的 问题 可 以 用 图 6-22 中 的 图 表明 。 在 这 个 图 中 ， 每 个 子 循环 用 一 个 结 点 表示 ， 
结 点 标 有 在 子 循环 内 赋值 的 变量 。 在 每 个 结 点 内 列 出 可 以 并 行 的 循环 索引 。 
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现在 的 问题 是 确定 哪个 循环 可 以 被 合并 到 A 循 环 中 去 。A 循 环 产生 既 在 B 循 环 又 在 循环 内 
引用 的 值 。 因 此 我 们 希望 与 两 个 循环 都 合并 。 然 而 ， 我 们 不 能 合 
并 两 个 循环 而 又 不 放弃 并 行 性 。 如 果 我 们 合并 A 循 环 和 B 循 环 ， 则 , © 
需要 使 J 循 环 在 结果 供 套 中 并 行 。 但 是 那样 以 后 ， 与 C 循 环 的 合并 
将 强制 结果 的 I 层 和 J 层 成 为 串 行 的 。 因 此 我 们 必须 做 出 选择 。 
问题 在 于 仅仅 检查 后 继 不 能 确定 最 优 的 选择 。 虽 然 它 们 在 这 (>) C+) 
一 点 看 起 来 一 样 好 ， 但 实际 上 与 (循环 合并 肯定 更 有 利 。 为 了 理 
解 为 什么 会 这 样 ， 我 们 可 以 假定 与 循环 合并 。 这 样 ， 由 于 我 们 ; Co) 
前 边 描述 过 的 理由 ， 得 到 的 结果 循环 就 不 能 和 (循环 合并 。 并 且 ， 
它 也 不 能 和 D 循 环 合并 ， 因 为 如 果 两 个 循环 在 依赖 图 上 有 依赖 关 。 图 6 2 AEAN 
系 ， 并 且 依赖 图 中 存在 一 条 路 径 经 过 一 个 不 能 被 合并 到 同一 组 的 
循环 ， 那 么 这 两 个 循环 就 不 能 被 合并 。 在 这 种 情况 下 ， 穿 过 C 循 环 的 路 径 迫 使 我 们 只 能 留 下 特 
环 0 不 合并 。 最 终结 果 有 三 个 并 行 循环 和 两 个 栅 降 : 
PARALLEL DO J = 1, M 
DOI=1,N 
ACI,J) = A(I,J) + X 
B(I+1,J) = A(I,J) + B(I,J) 
ENDDO 
END PARALLEL DO 
PARALLEL DO I= 1, N 
DOJ=1, M 
C(I, d+1) = A(I,J) + CC(I,d) 
ENDDO 
END PARALLEL DO 
PARALLEL DO J = 1, M 
po I = 1，N 
D(I+1,J) = B(I+1,J) + C(I,J) + D(I,J) 
ENDDO 
END PARALLEL DO 


另 一 方面 ,如 果 我 们 合并 A 循 环 和 C 循 环 ， 那 么 我 们 就 可 以 合并 B 循 环 和 D 循 环 ， 那 样 就 只 
会 留 下 一 个 栅 障 和 两 个 循环 伐 套 : 
PARALLEL DO I = 1, N 
DOJ =1, M 


A(I,J) = A(I,J) +X 
C(I,J+1) = A(I,J) + C(I,Y) 


ENDDO 
END PARALLEL DO 
290 PARALLEL 00 J = 1, M 
291 DOI=1,N 


B(I+1,J) = A(I,J) + B(I,J) 
D(I+1,J) = B(I+1,J) + C(I,J) + D(I,J) 
ENDDO 
END PARALLEL DO 


就 数据 重用 和 处 理 器 个 数 来 说 ， 这 个 版 本 明显 要 好 一 些 。 问 题 是 在 作 关 于 如 何 做 循环 合并 的 
决定 时 需要 前 瞻 。 有 时 其 至 可 能 需要 任意 长 度 的 前 瞻 。 
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因为 这 些 问题 ， 大 多 数 并 行 代码 生成 系统 使 用 某 种 启发 式 方法 来 决定 如 何 合并 多 层 的 循 
环 。 一 个 有 趣 的 启发 式 方法 是 与 那些 不 能 与 其 后 继 合并 的 循环 合并 。 这 个 恰好 能 解决 例子 中 
问题 的 启发 式 方法 的 背后 理由 是 ， 如 果 一 个 后 继 不 能 和 它 自 己 的 后 继 合并 ， 那 么 你 就 需要 至 
少 一 个 栅 障 。 因 此 为 什么 要 立即 把 另 一 个 栅 障 放 到 那个 后 继 的 前 边 而 选择 两 个 呢 ? 这 个 局 发 
式 方 法 被 用 于 PFC 的 并 行 代码 生成 系统 中 。 


6.4.2 一 个 并 行 代码 生成 算法 

在 本 节 我 们 提出 一 个 代码 生成 算法 ， 用 于 一 般 的 情形 一 一 有 层次 的 循环 峰 套 。 这 里 的 主 
要 问题 是 确定 什么 时 候 使 用 循环 分 布 和 合并 ， 以 及 在 各 个 嵌 套 并 行 化 以 后 决定 哪些 循环 需要 
合并 。 

按照 常规 我 们 使 用 自 顶 向 下 的 方法 ， 首 先 尝 试 并 行 化 最 外 层 的 循环 嵌 套 。 如 果 这 样 能 够 成 
功 地 找到 足够 的 并 行 性 ， 那 就 不 需要 再 作 什 么 了 。 否 则 就 对 外 层 循环 作 分 布 ， 尝 试 在 内 层 循环 
中 找到 更 多 的 并 行 性 。 结 果 过 程 一 一 Parallelize 一 一 如 图 6-23 所 示 。 为 了 处 理 紧 企 侯 套 ， 使 用 图 
6-19 给 出 的 例 程 ParallelizeNest， 以 及 图 6-20 的 循环 选择 启发 式 方法 。 我 们 假定 ParallelizeNest 
已 如 6.3.6 节 讨论 过 的 那样 被 修改 为 用 于 对 循环 做 重 排序 以 提高 内 存 层 次 结构 的 性 能 ， 并 当 循 环 
需要 在 单个 处 理 器 上 运行 时 将 内 层 循环 标记 为 串 行 的 ， 以 便 有 效 地 使 用 高 速 缓存 。 





procedure Parallelize(1, D,) 
/ 是 需要 并 行 化 的 循环 嵌 套 
/了 D 是 限于 由 语句 的 依赖 图 
Parallelize(l, success); 
if ssuccess then begin 
证 /可 以 被 分 布 then begin 
J AG BPR EL. hy, ws lH; 
for i:= 1 to n do begin 
KDE PI OKRA RS 
Parallelize(!,, Di); 
end 
Merge({l,, b, ..., ba})5 
end 
else begin 


// 或者! 携带 一 个 依赖 环 ,或 者 它 包 括 一 个 因为 内 存 性 能 而 必须 在 单个 处 理 器 上 运行 的 语句 
/注意 ParalieliceNest 为 嵌 套 中 的 每 个 语句 生成 了 一 个 串 行 循环 。 然 而 ， 它 没有 试图 
AH 立即 把 这 个 循环 分 布 到 外 层 循 环 中 去 ; 


for each REE! HAS BAI, do begin 
设 D, 是 ,中 语句 间 的 依赖 关系 集 
去 掉 ! 携 带 的 依赖 ; 
Parallelizetl,, Do); 
end 
设 5 是 ! 中 剩 下 的 外 层 循 环 和 语句 循环 的 集合 ; 
if} S1 >1 then Merge(S); 
end 
end 
end Parallelize 





图 6-23 一 个 通用 代码 生成 算法 
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Parallelize 4 i AParallelizeNest, R6 3I HITER RRE R. WRAT, 
就 尝试 把 循环 分 布 为 一 系列 子 嵌 套 ， 递 归 地 并 行 化 每 个 子 戏 套 ， 并 尽 可 能 地 合并 得 到 的 结果 
谷 套 。 如 果 循 环 不 能 被 分 布 ， 就 串 行 化 最 外 层 循 环 ， 并 在 其 循环 体内 的 顶层 循环 递归 调用 自 
己 。 当 这 个 过 程 结 束 ， 尝 试 合并 尽 可 能 多 的 结果 修 套 。 
这 个 算法 的 关键 部 分 是 图 6-24 的 例 程 Merge， 它 把 并 行 化 的 循环 尽 可 能 地 重新 合并 起 来 。 
Merge 使 用 一 种 类 似 图 6-9 给 出 的 用 于 串 行 -= 并行 合并 的 算法 。 其 基本 思想 是 把 不 同 的 循环 按照 
类 型 分 类 ， 每 种 类 型 表示 原来 嵌 套 中 的 最 外 层 循环 ， 且 在 分 布 后 的 循环 中 也 能 放 在 最 外 层 ， 
并 且 不 会 改变 关键 的 性 能 因素 ， 例 如 并 行 性 、 粒 度 或 最 内 层 位 置 循环 的 内 存 性 能 。 若 两 个 循 
292) 环 在 正则 形式 下 一 个 的 最 外 层 循环 是 并 行 的 而 另 一 个 的 是 串 行 的 ， 则 此 二 循环 的 类 型 不 同 。 
293| ”作为 例子 ， 考 虑 下 面 的 循环 嵌 套 : 


procedure Merge(S) 
WSEREAHWEARKERS 
/注意 : 单个 语句 可 以 被 视 为 一 种 特别 类 型 的 循环 


设 {, t,o tm} 是 循环 类 型 的 集合 ; 
按照 顺序 对 S 中 每 种 类 型 的 最 外 层 循环 进行 合并 


使 用 图 6-9 给 出 的 TypedFusion; 

for each 合 并 的 组 G do begin 
ith, lz, o 壬 为 合并 后 的 组 G 内 的 循环 嵌 套 ; 
Merge({l,, lz, ..., Li}); 

end 





end Merge 


图 6-24 一 组 循环 嵌 套 的 循环 合并 


DOJ=1,M 
D0OI=1,N 
A(I+1,U+l) = A(I+1,J) + C 
X(I,J) = A(I,J) +€ 
ENDDO 
ENDDO 


这 个 俐 套 中 的 哪 一 个 循环 都 不 能 并 行 化 ， 因 此 对 外 县 循环 作 分 布 : 
DO J=1, M 
DOI=1,N 
A(I+1,J+1) = AC(I+1,0) +C 
ENDDO 
ENDDO 
00 J=1, M 
DOI=1,N 
X(I,J) = A(I,J) +€ 
ENDDO 
ENDD0 


这 些 循环 中 的 每 一 个 都 可 以 并 行 化 ， 第 二 个 是 在 两 维 上 并 行 化 ， 尽 管 代码 生成 器 可 能 串 
行 化 第 二 个 嵌 套 的 内 层 循环 以 保证 它 具 有 可 接受 的 内 存 性 能 : 
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PARALLEL DO I = 1, N 
D0 J=1, M 
ACI+1,J#1) = ACI, J+1) +C 
ENDDO 
ENDDO 
PARALLEL DO J = 1, M 
DO I = 1, N! 为 了 内 存 层 次 结构 的 性 能 保留 串 行 
X(I,d) = A(I,J) +C 
ENDDO 
ENDDO 
第 一 个 循环 戏 套 的 类 型 是 [I- 循 环 ， 并 行 ]。 第 二 个 循环 戏 套 是 [0- 循 环 ， 并 行 ]。 因 此 这 两 
个 循环 有 不 同 的 类 型 ， 从 而 不 能 在 最 外 层 被 合并 。 
一 个 稍微 复杂 一 些 的 峙 套 如 下 所 示 ， 类 似 于 6.4.1 节 的 例子 : 
D0 J=1,M 
DOI=1,N 
A(I,J) = A(1,J) + X 
B(I+},J) = A(I,J) + B(1,9) 
C(I,0+1) = A(I,J) + C(I,J) 
D(I+1,J) = B(I+1,J) + C(I,d) + D(I,J) 
ENDDO 
ENDDO 


在 循环 分 布 和 并 行 化 以 后 ， 它 变 成 
Lı PARALLEL DO J = 1, M 
DOI= 1, AN 为 了 内 存 层次 结构 的 性 能 而 串 行 化 
A(1,J) = A(I,J) +X 
END PARALLEL DO 


ENDDO 
L: PARALLEL DO J=1, M 
DOI=1,N 
B(I+1,J) = A(I,J) + B(I,J) 
ENDDO 


END PARALLEL DO 
Ls PARALLEL DOI=1, N 
DOJ=1, M 
C(I, J+1) = A(1, J) + C(1,9) 
ENDDO 
END PARALLEL DO 
La PARALLEL DO J = 1, M 


pO I=1,N 
D(I+1,J) = B(I+1,J) + C(I,J) + D(I,J) 


ENDDO 
ENDDO . © © 
第 一 、 第 二 和 第 四 个 循环 被 划分 为 同一 个 类 型 。 合 并 图 如 图 
6-25 所 示 。 
一 个 贪 歼 合并 算法 将 会 合并 循环 Li 和 Ls, 而 单独 留 下 Ls。 此 外 ， 


对 Mersge 的 递归 调用 也 将 合并 内 层 的 串 行 循环 。 结 果 如 下 : 
Lı PARALLEL DO J = 1, M 图 6-25 并 行 和 串 行 子 图 


N 
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DOI=1, N 
A(I,J) = A(1,J) + X 
B(I+1,J) = ACI,J) + B(I,d) 
ENDDO 
END PARALLEL DO 
L3 PARALLEL DO I= 1, N 
DO J=1, M 
C(I,J+1) = A(I,J) + C(1,J) 
ENDDO 
END PARALLEL DO 
La PARALLEL DO J = 1, M 
DO I =1,N 
D(I+1,J) = B(I+l,J) + C(1,d) + D(I,J) 
ENDDO 
ENDDO 


像 我 们 在 6.4.1 节 指出 的 那样 ， 对 于 这 个 例子 ， 有 可 能 得 到 更 少 的 并 行 循环 。 不 过 我 们 打算 
接受 这 个 结果 ， 因 为 它 有 更 好 的 内 存 性 能 ， 而 且 最 小 化 并 行 循 环 的 数量 问题 是 一 个 NP 完 全 问题 。 

关于 Paralierize 有 最 后 两 点 需要 说 明 。 首 先 ， 把 它 应 用 于 给 定 程序 中 一 组 循环 伐 套 的 最 外 
层 经 常 是 有 用 的 。 为 此 需要 一 个 驱动 程序 ， 它 可 以 包括 在 Paralielize 的 顶层 或 者 单独 存在 。 驱 
动 程序 如 图 6-26 所 示 。 它 将 用 于 6.5 节 扩充 的 例子 。 


procedure DriveParallelize(L, D) 
/了 是 在 最 外 层 的 循环 嵌 套 〈 以 及 单个 语句 ) 的 列表 
WD 是 L 中 的 语句 集 的 依赖 图 
for eachj FHKE! E L do begin 


设 D. 是 ! 中 语句 问 的 依赖 关系 集合 ; 
Parallelize(l, Di); 

end 

if | L | >1 then merge(L); 


end DriveParallelize 





图 6-26 循环 和 语句 集 并 行 化 过 程 的 驱动 程序 


其 次 ，Parallelize 如 同 写 出 的 那样 ， 在 尝试 任何 分 布 之 前 ， 总 是 更 倾向 于 并 行 化 整个 循环 ， 
即使 它 不 是 最 外 层 循 环 。 这 可 能 不 会 对 任何 机 器 都 是 最 佳 的 策略 。 同 时 尝试 两 种 策略 ， 并 根 
据 某 种 标准 评价 这 两 种 方法 所 得 结果 ， 然 后 选择 最 好 的 ， 这 样 可 能 得 到 一 个 更 好 的 结果 。 我 
们 把 修改 Parallelize 以 完成 以 上 任务 留 作 一 个 习题 (习题 6.4)。 


6.5 一 个 扩充 的 例子 

我 们 将 用 对 一 段 特 殊 示例 代码 的 讨论 来 结束 对 循环 九 套 的 代码 生成 的 处 理 。 我 们 选择 的 
代码 是 Erlebacher 的 一 个 子 例 程 ， 它 是 由 Thomas M. Edison 编 写 的 一 个 解 NASA 微 分 方程 的 程 
序 。 原 始 代 码 见 图 6-27。 注 意 循环 已 经 被 最 大 限度 地 分 布 。 

如 果 我 们 对 各 个 嵌 套 应 用 图 6-23 的 通用 多 层 代 码 生 成 算法 ， 那 么 在 每 个 嵌 套 中 J- 循 环 都 
会 被 并 行 化 ， 而 I- 循 环 则 仍 是 串 行 的 ， 以 保证 在 单个 处 理 器 上 的 顺序 访问 。 因 为 得 到 的 最 外 
层 循 环 是 相 容 的 一 一 它们 都 是 并 行 的 ， 并 且 从 JU=1 执 行 到 JMAXD 一 一 这 些 最 外 层 的 循环 都 可 以 在 
TypedFusion 的 第 一 次 应 用 中 被 合并 而 生成 图 6-28 所 示 的 代码 。 
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DO J = 1, JMAXD 
DO I = 1, IMAXD 
F(I,J,1) = F(I,J,1) * B(1) 
ENDDO 
ENDDO 
DOK=2,N-1 
DO J = 1, JMAXD 
DO I = 1, IMAXD 
F(I,J,K) = (F(I,J,K)-A(K)*F(I,J,K-1)) * B(K) 
ENDDO 
ENDDO 


ENDDO 
DO J = 1, JMAXD 
DO I = 1, IMAXD 


TOT(I,J) = 0.0 
ENDDO 
ENDDO 
DO J = 1, JMAXD 
DO I = 1, IMAXD 
TOT(I,J) = TOT(I,J) + D(1) * F(I,J,1) 


IMAXD 
TOT(I,J) = TOT(I,J) + D(K) * F(I,d,K) 
ENDDO 
ENDDO 
ENDDO 








图 6-27 Erlebacher 的 子 例 程 tridvpk 


PARALLEL DO J = 1 , JMAXD 
DO I = 1, IMAXD 
F(I,d,1) = F(I,J,1) * B(1) 
ENDDO 
DOK =2,N-1 
DO I = 1, IMAXD 
F(I,0,K) = (F(I,J,K)-A(K)*F(I,J,K-1)) * B(K) 
ENDDO 
ENDDO 
DO I = 1, IMAXD 


TOT(I,J) = 0.0 
ENDDO 


DO I = 1, IMAXD 
TOT(I,J) = TOT(I,J) + D(1) * F(I,J,1) 
ENDDO 
DOK=2,N-1 
DO I = 1, IMAXD 
TOT(I,J) = TOT(I,J) + D(K) * F(I,J,K) 
ENDDO 
ENDDO 
ENDDO 


图 6-28 单个 贱 套 并 行 化 以 后 Erlebacher 中 的 子 例 程 tridvpk 
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TypedFusion 接 着 用 于 下 一 层 循 环 ， 它 们 都 是 品行 的 。 这 产生 图 6-29 的 合并 图 。 这 里 循环 
Li, Lil, (在 I 上 的 外 层 循 环 ) 被 赋予 一 种 类 型 ， 而 L2 和 Ls 


(在 J 上 的 外 层 循环 ) 被 赋予 另 一 种 类 型 。 这 个 第 二 遍 应 用 人 
TypedFusion 生 成 图 6-30 所 示 的 最 终 的 程序 ， 在 最 外 层 有 一 


个 并 行 循环 而 所 有 内 层 循环 以 跨 距 1 访问 关键 数组 。 
6.6 并 行 性 的 封装 Cs) Cs) 


通常 并 行 代码 的 性 能 不 仅 依赖 于 能 够 找到 多 少 并 行 性 ， 
也 依赖 于 它们 如 何 封装 。 我 们 在 6.3.6 节 已 经 看 到 在 并 行 性 
和 内 存 层次 结构 性 能 之 间 的 一 个 折 中 。 在 这 一 节 我 们 将 考 

虑 并 行 性 和 同步 粒度 之 间 的 折 中 。 像 我 们 在 引言 中 所 说 的 图 6-29 Erlebacher 的 合并 图 
那样 ， 在 不 同 机 器 之 间 ， 每 个 同步 操作 的 代价 可 以 是 不 同 

的 。 如 果 没 有 并 行 线程 的 启动 和 同步 的 代价 ， 那 么 按 最 小 粒度 封装 并 行 性 就 总 是 最 好 的 。 然 
后 零 - 代 价 调度 程序 总 可 以 保持 每 个 处 理 器 的 忙 状态 ， 直 到 所 有 任务 完成 。 最 大 的 负载 不 平衡 
等 于 并 行 处 理 器 上 执行 的 任务 的 最 大 粒度 ， 而 开销 的 时 间 则 是 零 。 


PARALLEL DO J = 1, JMAXD 
DO I = 1, IMAXD 
F(I,J0,1) = F(I,J,1) * B(1) 
TOT(I,J) = 0.0 
TOT(I,J) = TOT(I,J) + D(1) * F(I,d,1) 
ENDDO 


DOK=2,N-1 
DO I = 1, IMAXD 
F(I,J,K) = (F(I,J,K)-A(K)*F(I,J,K-1)) * B(K) 
TOT(I,J) = TOT(I,J) + D(K) * F(I,J,K) 
ENDDO 
ENDDO 
ENDDO 








图 6-30 ”Erlebacher 中 子 例 程 tridvpk 的 最 终 代码 


因为 在 真实 系统 上 ， 线 程 启动 和 同步 的 代价 都 是 大 于 零 的 ， 选 择 一 个 合适 的 折 中 就 变 得 
更 加 复杂 。 较 大 粒度 的 工作 单位 意味 着 在 较 小 并 行 性 和 较 差 负载 平衡 的 代价 下 可 以 较 少 执行 
调度 和 同步 操作 。 这 样 的 折 中 需要 编译 器 针对 不 同 的 目标 平台 做 出 不 同 的 选择 。 

在 这 一 节 我 们 将 讨论 两 个 用 于 处 理 并 行 性 和 同步 之 间 折 中 的 工具 。 循 环 分 段 是 一 种 通过 
减少 可 用 并 行进 程 总 数 来 直接 增加 粒度 的 策略 。 另 一 方面 ， 在 没有 其 他 方法 可 用 时 ， 流 水 线 
给 出 一 种 通过 显 式 同步 来 得 到 并 行 性 的 方法 。 像 我 们 将 会 看 到 的 那样 ， 流 水 线 还 涉及 到 另 一 
个 在 粒度 和 并 行 性 之 间 的 折 中 。 

6.6.1 循环 分 段 

很 多 不 含 依赖 的 循环 ， 其 迭代 可 以 正确 地 并 行 执行 ， 但 在 调度 算法 比较 简单 的 情况 下 可 
能 无 法 有 效 地 并 行 执行 。 沼 见 的 情况 是 单个 循环 迭代 中 的 工作 量 可 能 不 足以 使 其 成 为 调度 的 
单位 。 在 这 种 情况 下 ， 把 多 个 选 代 组 成 集合 ， 每 个 集合 作为 一 个 调度 单元 ， 这 样 可 以 更 有 效 





地 利用 并 行 性 。 与 向 量化 类 似 的 变换 是 循环 分 段 一 一 把 可 用 的 并 行 性 转换 成 一 种 更 适合 硬件 
的 形式 。 下 面 的 简单 循环 将 说 明 这 种 变换 对 并 行 性 的 优点 。 


DOI=1,N 
ACI) = ACI) + B(1) 
ENDDO 
如 果 恰 有 P 个 处 理 器 可 用 于 执行 循环 ， 那 么 最 佳 的 负载 平衡 和 最 小 的 同步 可 以 由 如 下 程序 
得 到 : 


k = CEIL(N/P) 
PARALLEL DO I = 1, N, k 
DO j = I, MIN(I+k-1,N) 
A(j) = ACJ) + BCJ) 
ENDDO 
END PARALLEL DO 
在 像 这 样 的 循环 中 ， 每 个 挝 代 很 明显 需要 相同 的 计算 量 ， 一 旦 知道 循环 迭代 的 个 数 和 可 
用 的 处 理 器 个 数 ， 找 到 适当 的 平衡 点 是 很 容易 的 。 由 于 那些 值 经 常 到 运行 时 才能 知道 ， 这 种 
循环 分 段 经 常 由 特别 的 硬件 完成 ( 像 Convex C2 和 C3 中 的 情况 )。 
如 果 和 迭代 的 执行 时 间 是 不 同 的 ， 如 像 在 
DOI=1,N 
00J=2,1 
A(I,9) = A(I,J-1) + B(I) 
ENDDO 
ENDDO 
这 样 的 程序 中 ， 给 出 一 个 有 效 的 平衡 点 更 加 困难 。 通 常宁 愿 选择 一 个 较 小 的 块 大 小 ， 而 不 是 
通过 循环 分 段 把 并 行 循环 (在 这 个 例子 中 是 外 层 ) 平均 分 到 处 理 器 。 这 样 ， 当 负担 较 重 的 处 
理 器 还 在 执行 时 ， 执 行 任务 较 少 的 处 理 器 (也 就 会 较 快 结束 ) 可 以 承担 一 些 过 剩 的 工作 ， 从 
而 提供 某 种 负载 平衡 。 较 小 的 块 大 小 在 处 理 器 开始 交错 工作 时 也 更 有 利 ， 因 为 这 人 允许 首先 开 
始 的 处 理 器 多 承担 一 些 负载 。 已 经 提出 若干 种 不 同 的 并 行进 程 的 动态 调度 方案 。 这 些 技术 将 
在 本 章 后 面 讨论 。 


6.6.2 ”流水线 并 行 性 
另 一 种 形式 的 粗 粒度 并 行 循 环 是 00OACR0SS， 它 用 迭代 间 的 同步 实现 并 行 循环 送 代 的 流水 
执行 (基本 上 用 多 个 处 理 器 作为 高 层 向 量 处 理 器 )。 例 如 ， 人 循环 
DOACROSS I = 2, N 
S; ACI) = 8(I) + C(I) 
POST(EV(I)) | 
IF (I .67. 2) WAIT(EV(I-1)) 
Sz C(I) = A(I-1) + ACI) 
ENDDO 
可 以 完全 像 用 一 个 PARALLEL DOMIR AREEFETT HOPS NARA, MAES HI ERBE 
所 需 的 结果 可 用 时 按 流水 方式 执行 。 在 这 个 例子 中 ，P0ST(EV(I)) 发 布 事件 EV(I) 已 经 发 生 的 
信息 而 WAIT(EV(I1)0 阻 塞 直 至 事件 被 发 送 。 通 常 ， 所 有 事件 都 初始 化 为 未 发 送 状 态 。 
一 个 更 精巧 的 例子 是 流水 线 版 的 有 限 差 分 松弛 法 的 波 前 并 行 化 。 串 行 的 循环 嵌 套 如 下 所 
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DO I = 2, N-l 
DO J =2, Nel 
A(T,J) = 0.25 * (ACE-1,0) + A(I,J-1) + A(I+1,J) + A(T, J+#1)) 
ENDDO 
ENDDO 


我 们 已 经 知道 如 何 用 循环 倾斜 来 并 行 化 这 个 循环 。 循环 倾斜 也 可 以 看 做 是 一 种 实现 流水 
线 的 方法 。 现 在 我 们 将 说 明 如 何 通过 DOACR0SS 循 环 来 实现 它 。 在 这 个 实现 中 ， 我 们 将 并 行 
行 外 层 循环 而 串 行 执行 内 层 循 环 。 这 里 重要 的 一 点 是 保证 我 们 在 计算 出 A(I,J) 之 后 才 开 始 
A(I+1,J) 的 计算 。 像 上 面 一 样 ， 我 们 将 使 用 一 个 二 维 事件 数组 来 保证 计算 正确 地 同步 。 
DOACROSS I = 2, N-1 
POST(EV(1)) 
DO J =2, N-1 
WAIT(EV(J-1)) 
ACI, J) = 0.25 * (A(I-1, J) + ACL, J-1) + ACI41, J) + ACI, J+1)) 
POST(EV(J)) 
ENDDO 
ENDDO 


这 个 并 行 循环 的 执行 过 程 如 图 6-31 所 示 。 注 意 在 这 个 图 中 的 箭头 表示 在 一 个 公共 事件 上 
的 post-wait 同 步 。 


I=2 一 一 一 事件 同步 











图 6-31 流水 线 并 行 化 


如 果 同 步 的 开销 较 大 ， 我 们 可 能 希望 把 迭代 分 组 以 减少 同步 的 频率 。 例 如 ， 如 果 我 们 希 
望 同步 次 数 比 通常 少 ， 可 以 如 下 把 迭代 分 为 两 个 一 组 : 
DOACROSS I = 2, N-1 
POST(EV(1)) 
K=0 
DO J = 2, N-l, 2 
K = K+l1 
WAITCEV(K)) 
DO m = J, MAX(J+1, N-1) 
ACI, m) = 0.25 * (ACI-1, m) + ACI, m-1) + ACI+1, m) + ACI, m+1)) 
ENDDO 
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POST(EV(K+1)) 
ENDDO 
ENDDO 
注意 ， 我 们 为 降低 同步 的 频率 付出 了 减少 并 行 性 的 代价 。 从 图 6-32 可 以 看 到 这 一 差别 。 
在 这 个 例子 中 ， 虽 然 I- 循 环 的 最 后 一 个 选 代 开始 得 很 迟 ， 但 如 果 同 步 代价 很 高 的 话 ， 减 少 同 |? 


步 的 执行 频率 仍然 可 以 弥补 开始 时 间 延 迟 的 代价 。 303 
I=2 一 一 > 事件 同步 
— 

















图 6-32 粗 粒度 流水 线 并 行 化 


由 于 DOACROSS 的 效果 是 与 机 器 密切 相关 的 ( 它 的 执行 效率 很 大 程度 上 依赖 于 处 理 器 同步 )， 
它 应 当 只 在 流水 线 并 行 性 是 提高 性 能 的 惟一 方法 时 才 使 用 。 


6.6.3 调度 并 行 任务 
在 多 个 处 理 器 间 成 功 地 调度 并 行 循环 迭代 是 很 困难 的 ， 并 且 这 曾经 是 并 行程 序 设计 得 到 
广泛 接受 的 一 个 主要 障碍 。 在 一 方面 ， 大 多 数 必需 的 原 语 是 很 简单 的 且 在 很 多 操作 系统 上 已 
经 实现 。 例 如 在 Unix 机 器 上 ， 所 有 需要 的 只 是 一 个 轻 量 级 线程 (通常 通过 一 个 系统 调用 fork 
的 变形 得 到 )， 共 享 地 址 、 数 据 空间 和 堆栈 ,但 是 有 它 自己 的 “线程 局 部 的 ”存储 区 (通常 在 ”1304 
页 面 调 度 机 制 中 使 用 写 拷贝 语义 创建 )。 轻 量 级 线程 必须 能 够 创建 自身 的 栈 以 支持 子 例 程 调 
用 ;这 通常 在 线程 局 部 存储 以 外 实现 。 
在 这 样 的 环境 下 ， 一 个 相当 标准 的 调度 并 行 循环 迭代 的 技术 是 把 循环 变量 保存 在 一 个 同 
步 的 共享 单元 。 当 一 个 处 理 器 空闲 时 ， 循 环 迭 代 就 被 分 配 到 这 个 处 理 器 上 ， 和 顾客 在 一 个 
“ 取 号 ”的 面包 店 里 得 到 服务 的 情形 很 相似 (因此 也 称 作 “面包 店 计数 器 ”调度 )。 在 这 样 一 
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个 方案 下 ， 并 行程 序 在 开始 时 执行 一 个 系统 调用 获取 可 用 的 处 理 器 。 当 它 得 到 处 理 器 以 后 ， 
程序 将 除 主 处 理 器 (启动 处 理 器 ) 之 外 的 其 他 处 理 器 都 设 为 低 优先 级 ， 等 待 任务 。 主 处 理 器 
然后 继续 串 行 执行 程序 。 当 遇 到 一 个 并 行 循环 时 ， 主 处 理 器 初始 化 循环 变量 并 为 所 有 正在 等 
等 的 处 理 器 设置 一 个 跳 转 向 量 ， 将 这 些 处 理 器 释放 出 来 让 它们 从 相应 的 并 行 循环 开始 执行 
(每 个 线程 都 拥有 相同 的 代码 空间 的 拷贝 )。 每 个 处 理 器 通过 同步 到 计数 器 取 一 个 循环 迭代 来 
执行 。 这 个 过 程 轮流 进行 直到 所 有 任务 完成 为 止 ， 这 时 从 处 理 器 重新 进入 空闲 循环 而 主 处 理 
器 将 继续 在 串 行 区 域 中 执行 。 大 体 上 ， 面 包 店 计数 器 方法 在 减少 同步 开销 和 平衡 处 理 器 间 的 
任务 方面 达到 了 较 好 的 平衡 。 然 而 ， 这 种 方法 在 某 些 情况 下 也 有 可 能 效率 很 低 一 一 例如 ， 如 
果 一 个 被 分 配 到 某 个 碗 代 的 处 理 器 被 操作 系统 中 断 了 很 长 一 段 时 间 去 执行 其 他 任务 。 在 这 种 
情况 下 ， 该 迭代 就 会 阻塞 后 边 的 计算 。 

面包 店 计数 器 算法 说 明成 功 的 并 行 性 调度 中 所 涉及 的 一 些 固 有 的 矛盾 一 一 适当 地 解决 负载 
平衡 和 同步 的 问题 。 为 了 达到 最 佳 的 负载 平衡 ， 在 一 个 并 行 过 程 内 的 任务 应 当 被 划分 为 可 能 
的 最 小 单位 〈 最 小 的 粒度 )。 那 样 ， 在 任何 时 间 都 有 最 大 数量 的 单位 用 于 分 配 。 这 就 减少 了 一 
个 处 理 器 信 于 完成 一 个 任务 而 其 他 处 理 器 空闲 地 等 待 任务 的 可 能 

然而 ， 缩 小 并 行 性 的 粒度 的 代价 是 同步 的 开销 。 把 一 个 单位 的 任务 分 配 到 一 个 处 理 器 上 
涉及 到 一 些 同步 一 一 在 面包 店 计数 器 方法 中 ， 同 步 是 对 共享 循环 变量 加 锁 。 当 粒度 变 得 更 细 
时 ， 就 有 更 多 单位 要 分 配 ; 每 当 一 个 单位 被 分 配 ， 就 多 一 些 同步 开销 。 显 然 ， 将 一 个 并 行 过 
程 作为 单个 线程 〈 串 行 执行 ) 来 执行 不 会 引入 任何 开销 ; 而 把 每 条 指令 作为 一 个 独立 线程 并 
行 执行 则 显然 会 引入 最 大 的 开销 。 严 格 地 最 小 化 开销 等 于 支持 品行 执行 ， 当 然 这 会 导致 最 差 
的 负载 平衡 。 换 名 话说， 最低 的 开销 是 在 负载 平衡 最 差点 达到 的 ， 而 最 佳 的 负载 平衡 是 在 最 
高 的 开销 点 达到 的 。 在 这 中 间 的 某 些 点 ， 可 以 有 效 地 使 用 处 理 器 而 不 引入 过 多 的 开销 ， 找 到 
那些 点 是 有 效 的 并 行 调度 的 关键 。 

为 了 具体 地 说 明 这 一 平衡 多 么 重要 ， 考虑 下 面 的 并 行 三 角 算 阵 操作 : 

DO PARALLEL I = 1, 100 

DOJ = 2,1 
A(J,1) = ACJ-1,1) * 2.0 
ENDDO 
ENDDO 


第 一 个 并 行 循环 迭代 不 执行 乘法 ， 第 二 个 迭代 执行 1 次 乘法 ， 第 三 个 和 迭代 执行 2 次 乘法 ， 依 此 
类 推 ， 直 到 最 后 一 个 迭代 执行 N 次 乘法 。 如 果 要 在 一 个 有 4 个 处 理 器 的 机 器 上 调度 它 ， 一 个 达 
到 最 小 同步 开销 的 方法 是 把 并 行 循环 分 成 4 块 执行 ， 每 块 执行 W4 个 和 迭代 。 当 然 ， 问 题 是 ， 第 
一 个 处 理 器 将 执行 大 约 MW8 次 乘法 ， 第 二 个 执行 3/8N 次 乘法 ， 第 三 个 执行 %/8N 次 乘法 ， 而 最 后 
一 个 处 理 器 大 约 要 执行 718N 次 乘法 。 换 句 话说， 前 3 个 处 理 器 将 很 快 会 无 事 可 作 ， 而 最 后 一 个 
处 理 器 将 忙于 执行 大 部 分 的 任务 。 把 循环 分 成 最 细 的 粒度 一 每 个 处 理 器 每 次 执行 一 个 循环 
迭代 一 一 提供 最 佳 的 负载 平衡 ， 但 是 也 导致 最 大 的 同步 开销 。 

平衡 这 相互 矛盾 的 两 个 因素 是 得 到 有 用 并 行 性 的 关键 。 作 为 一 般 的 原则 ， 任 何 能 够 达到 
这 一 平衡 的 有 效 的 系统 都 需要 用 到 动态 处 理 器 调度 (和 静态 调度 相对 )， 因 为 并 行 性 的 量 和 处 
理 器 的 可 用 性 只 有 在 运行 时 才能 知道 。 面 包 店 计数 器 算法 是 动态 调度 的 一 个 例子 ; 它 也 是 自 
调度 的 一 个 例子 ， 即 每 个 处 理 器 自行 决定 下 一 个 执行 的 任务 是 什么 (相对 于 有 一 个 全 局 控制 
单元 控制 执行 的 情形 )。 动 态 自 调度 算法 对 于 达到 负载 平衡 且 避 免 过 大 的 开销 是 必要 的 。 下 一 








RMB HF HH 209 


节 我 们 讨论 制导 的 自 调 度 一 一 一 种 为 此 目标 而 提出 的 动态 自 调度 方法 。 
6.6.4 制导 的 自 调度 

如 前 所 指出 的 那样 ， 有 效 地 调度 循环 级 并 行 性 的 关键 在 于 平衡 负载 使 得 每 个 处 理 器 都 保 
持 忙碌 ， 同 时 又 不 引入 过 多 的 开销 而 破坏 并 行 性 带 来 的 好 处 。 在 并 行 计算 中 ， 有 很 多 种 类 的 
开销 ， 包 括 循环 变量 的 访问 ， 对 全 局 变量 的 同步 访问 ， 以 及 辅助 处 理 器 导致 的 额外 的 高 速 组 
存 不 命中 。 这 些 开销 很 容易 超过 并 行 执行 所 带 来 的 好 处 。 例 如 ， 简 单 地 假定 每 个 处 理 器 的 开 
销 是 一 个 常数 因子 o。( 对 于 p 个 处 理 器 会 导致 poo 的 总 开销 )， 那 么 如 果 

Oo > (NB)/p (6-3) 

其 中 是 循环 迭代 的 个 数 而 8 是 执行 一 个 循环 迭代 所 需要 的 时 间 ， 则 并 行 执行 将 总 是 比 串 行 执 
行 慢 。 换 名 话说 ， 如 果 用 P 个 处 理 器 执行 ， 每 个 处 理 器 的 开销 等 于 总 的 处 埋 器 执行 时 间 的 1/P， 
则 执行 时 间 将 大 于 串 行 执 行 的 时 间 ， 意 味 着 并 行 执行 不 能 得 到 任何 好 处 。 要 达到 这 样 量 级 的 
开销 根本 不 难 ， 特别 是 当 处 理 器 的 个 数 p 增 加 的 时 候 。 

制导 的 自 调 度 (GSS) 采用 某 种 静态 调度 来 指导 动态 自 调 度 。 基 本 上 ，GSS 试 图 做 两 件 事 
情 : (1) 最 小 化 同步 开销 ，(2) 保持 所 有 处 理 器 在 任何 时 间 都 是 忙碌 的 。GSS 通 过 按 和 迭代 组 
调度 到 处 理 器 来 减少 同步 开销 ， 而 不 是 像 在 面包 店 计数 器 算法 中 那样 按 单个 迭代 。 然 而 ， 当 
把 一 组 返 代 打包 发 送 给 某 个 处 理 器 执行 时 ， 它 试图 保证 留 有 足够 的 任务 以 保持 所 有 其 他 处 理 
器 忙碌 ， 直 到 被 调度 的 处 理 器 完成 它 的 任务 。 结 果 是 这 样 一 种 动态 平衡 :在 并 行 区 域 处 理 的 
较 早 阶段 ， 大 块 的 任务 被 分 配 到 处 理 器 ; 而 当 接近 并 行 区 域 的 末尾 ， 就 分 配 较 小 的 块 。 和 希望 
是 较 早 分 配 的 块 没 有 大 到 使 得 负载 不 平衡 超过 后 面 迭 代 的 所 能 补偿 的 范围 。 

更 形式 化 地 说 ，GSS 首 先 采 用 循环 变换 ， 如 循环 交换 和 循环 合并 等 ， 来 得 到 尽 可 能 大 的 
并 行 循环 。 然 后 它 把 循环 的 迭代 以 面包 店 计数 器 的 方式 分 配 到 处 理 器 ， 在 时 间 ! 时 分 配 的 迭代 
个 数 为 

N 


fs e 
P 
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全 大 小 合理 的 块 来 工作 ， 同 时 留 下 足够 多 的 迭代 以 确保 当 它 工作 时 其 他 处 理 器 保持 忙碌 。 使 
用 GSS 在 一 个 有 4 个 处 理 器 的 机 器 上 调度 一 个 有 20 个 挝 代 的 循环 ， 得 到 如 表 6-2 的 分 配 结果 。 


表 6-2 6SS 下 的 和 迭代 分 配 


SR (t) 处 理 器 剩 余 数 已 分 配 数 已 完成 的 迭代 
1 Pl 20 5 1-5 
2 P2 15 4 6-9 
3 P3 11 3 10-12 
4 P4 8 2 13, 14 
5 P4 6 2 15, 16 
6 P3 4 l 17 
7 P2 3 1 18 
8 P4 2 1 19 
9 Pl 1 1 20 
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这 里 处 理 器 的 分 配 和 所 需要 的 时 间 假定 所 有 循环 揭 代 需要 相同 的 时 间 来 完成 ， 且 没有 外 
部 中 断 发 生 。 根 据 这 些 假定 ，P1 执 行 6 个 远 代 ，P2 热 行 5 个 选 代 ，P3 执 行 4 个 迁 代 ， 而 P4 执 行 5 
个 迭代 一 一 不 是 一 个 很 完美 的 平衡 ,但 是 由 于 实际 上 会 有 一 些 因为 同步 开销 而 导致 的 出 入 ， 
所 以 这 是 一 个 好 的 平衡 。 总 的 同步 执行 次 数 为 9 次 ， 而 面包 店 计数 器 算法 需要 20 次 。 

图 6-33 给 出 一 个 GSS 的 形式 化 描述 。 该 算法 执行 一 些 静 态 的 初步 变换 (循环 合并 ,循环 交 
换 ， 循 环 分 布 )， 使 得 并 行 循 环 尽 可 能 大 ， 然 后 设置 运行 时 分 配 所 需 的 静态 信息 。 显 然 ，GSS 
没有 (也 不 能 ) 为 每 种 可 能 的 并 行 循环 的 变 体 找到 最 优 调度 一 一 例如 ， 在 表 6-2 描 述 的 例子 中 ， 
如 果 前 5 个 循环 迭代 都 需要 执行 很 长 时 间 而 剩余 的 迭代 的 执行 时 间 都 很 短 ， 那 么 显然 把 它们 单 
个 地 分 配 出 去 会 更 好 。 然 而 ， 如 果 给 什么 是 “最 优 ” 一 个 合理 的 限定 ， 那 么 可 以 证 明 在 任何 
初始 处 理 器 配置 下 ，GSS 可 以 得 到 最 优 调度 并 且 需 要 最 少数 量 的 同步 点 。 





1/ 给 出 任意 一 个 至 少 包含 一 个 DOALL 的 循环 媒 套 L 
/ 为 p 处 理 器 调度 

尽 可 能 地 分 布 L 中 的 循环 。 

交换 DOALL 到 尽 可 能 的 最 外 层 位 置 。 

尽 可 能 地 场 缩 所 有 的 内 层 循环 到 外 层 。 


调度 每 个 并 行 循 环 如 下 : 


N:=NiV 并 行 循环 迭代 总 数 
While N,>0 do begin 
IE 存 在 空闲 处 理 器 then begin 
调度 x :=(N,+p 一 1)/p 个 迭代 ; 
N,:=N,—xX; 





图 6-33 制导 自 调度 


这 里 ， 上 取 整 操作 符 被 改写 为 (N,+p - UDP， 这 是 等 价 的 。 注 意 最 后 的 4 次 分 配 都 是 单个 
的 循环 迭代 。 这 并 非 这 个 特定 例子 中 的 一 种 巧合 ; GSS 在 其 最 简单 形式 下 (也 被 称 为 GSS (1)) 
保证 最 后 p - 1 个 分 配 都 是 单个 循环 迭代 。 这 些 分 配 可 通过 对 GSS 算 法 稍 加 修改 而 消除 。 特 别 
是 ， 如 果 在 每 次 同步 中 发 送出 去 的 迭代 数 是 (N,+2p - 1)， 那 么 例子 中 的 迭代 流 就 变 为 (6,5, 
4, 3, 2)。 这 个 变形 就 是 GSS (2), 一 般 地 说 ，GSS (k) 保证 所 发 送出 去 的 迭代 块 包含 不 少 于 
Kk 个 和 迭代 。 基 本 的 GSS 算 法 可 以 通过 调节 发 出 选 代数 公式 中 p 的 系数 而 改变 为 GSS (上 )。 当 然 ， 
需要 为 终止 条 件 作 一 些小 的 修改 ， 因 为 只 有 GSS (1) 是 保证 最 后 正好 剩 下 0 个 迭代 ， 其 他 的 
则 可 能 超过 。 

制导 的 自 调度 通过 使 用 编译 时 信息 来 指导 运行 时 的 调度 ， 在 静态 和 动态 调度 之 间 达 到 出 
色 的 平衡 。 特 别 是 ， 编 译 器 可 以 针对 不 同 循环 根据 迭代 的 数量 和 每 个 选 代 的 预期 执行 时 间 来 
调节 K 的 值 一 一 和 迭代 数 对 处 理 器 数 的 比值 越 高 ，K 的 值 就 应 该 越 大 。 由 于 没有 一 个 通用 的 算法 可 
以 完美 地 调度 任意 的 并 行 循环 ，GSS 确 实 以 少 得 多 的 同步 开销 提供 面包 店 计数 器 算法 所 能 达 
到 的 平衡 。 

6.7 小 结 
为 生成 在 对 称 多 处 理 器 上 执行 的 程序 ， 所 面临 的 主要 挑战 是 处 理 并 行 性 和 并 行 粒度 之 间 
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的 折 中 。 如 果 没 有 足够 的 并 行 性 ， 处 理 器 就 不 能 被 有 效 地 利用 。 另 一 方面 ， 如 果 计 算 的 粒度 
太 细 ， 并 行 执行 的 启动 和 同步 代价 将 会 超过 性 能 上 的 收益 。 因 此 ， 挑 战 在 于 发 现 可 能 的 最 粗 
粒度 的 并 行 性 。 
我 们 提出 在 三 种 情况 下 解决 这 个 问题 的 方法 : 
* 在 单个 循环 中 ， 包 括 私 有 化 、 对 齐 和 复制 在 内 的 许多 变换 可 被 用 于 消除 携带 依赖 ， 从 而 
避免 循环 分 布 ， 那 样 会 减 小 并 行 粒 度 。 如 果 需 要 作 循环 分 布 ， 可 以 在 其 后 尽量 作 循环 合 
并 以 使 粒度 减 小 的 影响 降 至 最 小 。 
“在 紧 屿 循环 长 肆 中 ， 循 环 交 换 、 循 环 反 转 和 循环 倾斜 可 被 用 于 发 现 并 行 性 并 将 其 移动 到 
尽 可 能 外 层 的 位 置 。 在 很 多 情况 下 如 何 组 织 循环 以 求 最 优 性 能 不 仅 是 一 个 最 大 化 并 行 
的 问题 ， 还 要 考虑 体系 结构 因素 ， 例 如 内 存 层 次 结构 的 性 能 。 
“在 一 般 的 循环 散 亦 中 ， 即 不 一 定 是 紧 侈 循环 伐 套 ， 可 以 先 作 多 层 循环 分 布 ， 然 后 对 结 
果 循 环 嵌 套 进行 并 行 化 并 尽量 作 循环 合并 ， 这 样 可 以 发 掘 可 用 的 并 行 性 并 高 效 地 加 以 
封装 。 
在 一 个 真正 有 效 的 编译 器 中 ， 所 有 这 些 策略 都 是 需要 的 ， 并 且 它 们 必须 与 其 他 提高 性 能 
的 策略 合作 ， 特 别 是 内 存 层次 结构 管理 。 


6.8 实例 研究 

Rice 大 学 在 PFC 和 ParaScope 以 及 在 Ardent Titan 编 译 器 上 的 研究 都 把 所 高 粗 粒 度 并 行 性 作 
为 一 个 主要 目标 。 这 一 节 将 对 在 这 两 个 项 目 中 所 使 用 的 方法 作 一 个 回顾 。 

6.8.1 PFC 和 ParaScope 

PFC 系统 按 本 章 描述 的 方法 作 并 行 化 。 对 于 和 仍 套 的 循环 ， 它 将 尝试 把 并 行 循 环 移 到 尽 可 能 
外 层 的 位 置 上 。 内 层 循环 或 者 非 紧 黎 循环 套 将 会 被 分 布 、 并 行 化 ， 然 后 像 在 6.2.5 节 描述 的 那 
样 再 重新 合并 到 一 起 。 但 这 里 没有 使 用 带 类 型 的 合并 。 

因为 PFC 最 初 是 作为 一 个 向 量化 编译 器 构造 的 ， 它 设 有 执行 循环 做 套 外 的 依赖 分 析 。 这 是 
并 行 化 的 问题 ， 对 于 并 行 化 而 言 ， 考 虑 在 一 个 子 例 程 内 跨越 循环 嵌 套 的 依赖 是 很 重要 的 。 多 
年 来 ， 这 个 问题 的 改善 是 通过 把 子 例 程 看 成 有 一 个 循环 包围 在 例 程 体外 ， 目 的 是 作 依 赖 分 析 ， 
但 是 不 对 这 个 循环 携带 的 依赖 进行 测试 。 

Kathryn McKinley 为 她 的 博士 论文 使 用 ParaScope 系 统 进行 了 实验 ，ParaScope 系 统 是 PFC 
的 后 继 ， 使 用 了 PFC 的 依赖 信息 以 确定 变换 的 安全 性 和 有 利 性 [209]。 变 换 的 驱动 程序 相当 接 
近 于 图 6-23 的 算法 并 且 是 完全 自动 的 ， 合 法 性 和 安全 性 测试 也 是 这 样 。 然 而 ， 变 换 本 身 是 使 
用 一 个 交互 式 的 变换 系统 一 一 ParaScope 编 辑 器 ， 按 照 驱 动 程 序 生成 的 指令 手工 进行 的 。 这 样 
得 到 的 结果 就 和 完全 自动 系统 所 能 达到 的 效果 非常 相似 。 在 McKinley 的 测试 中 ， 自 动 系统 和 
有 经 验 的 并 行 编程 用 户 的 手写 程序 在 一 个 有 19 个 处 理 器 的 Sequent Symmetry SMP 上 进行 了 加 
速 比 的 比较 ， 这 些 用 户 都 不 是 PFC 或 者 ParaScope 开 发 组 的 成 员 。 结 果 如 图 6-34 所 示 。 

注意 在 实验 时 还 没有 LINPACKD 基 准 测试 程序 的 手工 并 行 化 版 本 . 基准 测试 程序 “Control” 
的 加 速 是 在 有 8 个 处 理 器 的 配置 下 得 到 的 。 更 多 实验 的 细节 见 McKinley 的 博士 论文 [209]。 

图 6-34 显 示 ， 在 中 等 大 小 的 对 称 多 处 理 器 上 ， 不 需要 对 算法 做 太 多 改动 ， 本 节 所 描述 的 
自动 并 行 化 策略 与 一 般 用 户 的 手写 代码 是 不 相 上 下 的 。 惟 一 较 大 的 失败 是 出 现在 “Multi” 基 
准 测 试 程序 ， 其 中 用 户 使 用 了 一 个 临界 区 来 同步 对 共享 变量 的 更 新 。 自 动 系统 未 能 发 现 这 可 
以 得 到 相同 的 结果 ， 因 为 那 实际 上 也 是 对 内 存 访 问 的 重 排序 。 


w 
Q 
‘oO 


W 
© 


Ww 


212 Zoe 











加 速 比 
fes] 












Seismic Erlebacher BTN Interior Direct ODE Control Multi LINPACKD 
应 用 


图 6-34 在 Sequent Symmetry 上 使 用 PFC/ParaScope 得 到 的 并 行 化 加 速 比 


6.8.2 Ardent Titan 编 译 器 

Ardent Titan 有 多 个 向 量 处 理 器 。 为 简单 起 见 ， 它 试图 向 量化 和 并 行 化 各 一 个 循环 。 一 旦 
这 样 决定 ， 循 环 交换 就 变 得 比较 容易 了 。 在 理想 情况 下 (也 就 是 ， 在 一 个 能 产生 一 个 向 量 循 
环 和 一 个 并 行 循环 的 循环 嵌 套 中 )， 在 Titan 上 进行 循环 交换 的 目标 如 下 : 

(1) 把 向 量 循环 移动 到 最 内 层 位 置 。 根 据 向 量化 的 定义 ， 这 个 变换 一 定 是 合法 的 。 并 且 ， 
因为 这 个 循环 将 在 并 行 代码 生成 阶段 被 “三 角 化 ”， 它 将 在 codegen 的 过 程 中 消失 。 

(2) 把 并 行 循环 移动 到 可 能 的 最 外 层 位 置 。 

(3) 把 对 重用 来 说 最 佳 的 循环 正好 移动 到 “tripled” 循 环 的 外 面 一 一 生成 代码 中 的 真正 最 
内 层 位 置 。 因 为 向 量 寄存 器 是 向 量 部 件 上 仅 有 的 一 种 “高 速 缓存 ”， 因 此 目标 是 尽 可 能 地 重用 
向 量 寄 存 器 。 这 是 Titan 最 大 的 成 功 之 处 ， 而 剩 下 的 把 循环 放 在 正确 位 置 等 其 他 的 次 要 工作 ， 
对 于 讨论 编译 时 间 的 代价 来 说 就 不 能 被 认为 那么 重要 了 。 

这 一 策略 简化 了 依赖 测试 和 代码 生成 。 这 个 受 限 制 形式 的 循环 交换 不 需要 完整 的 依赖 
和 矩阵。 为 确定 一 个 给 定 的 外 层 循环 是 否 可 以 被 向 量化 ，Ardent 编 译 器 仅 使 用 简单 最 内 层 化 
测试 一 一 个 不 携带 依赖 的 循环 总 是 可 以 被 放 在 最 内 层 位 置 并 且 向 量化 。 把 并 行 循环 移动 到 
最 外 层 位 置 是 通过 反复 交换 并 行 循环 和 它 直接 外 层 的 循环 而 实现 的 这 是 合法 的 一 只 是 简单 
地 并 入 到 代码 生成 的 过 程 。 因 此 ， 移 动 到 最 外 层 的 测试 变 成 了 一 个 向 内 交换 的 测试 。 如 果 
它 确实 携带 了 一 个 依赖 ， 那 么 一 个 重要 的 标准 是 当 它 向 内 交换 时 仍然 携带 这 个 依赖 (因为 
否则 向 外 移动 就 会 破坏 并 行 性 )。 这 样 ， 移 动 到 最 外 层 的 重要 标准 是 如 果 外 层 循 环 包含 一 个 
依赖 ， 这 个 依赖 会 随 着 交换 移动 到 内 层 。 这 和 上 边 第 三 个 条 件 的 要 求 其实 完 全 相同 得 到 
一 个 将 重用 置 于 最 内 层 位 置 的 循环 。 因此， 循环 交换 所 要 求 的 惟一 的 特殊 测试 是 在 向 量化 
意义 下 的 “禁止 交换 ”条 件 之 一 ， 虽 然 那些 正 是 Titan 编 译 器 会 交换 的 依赖 。 

很 多 在 并 行 化 中 使 用 的 循环 变换 是 用 户 也 可 以 作 的 。 例 如 ， 循 环 分 布 就 很 容易 在 源 代码 
级 进行 ， 而 那些 最 老练 的 用 户 可 以 判断 他 们 什么 时 候 可 以 安全 地 分 布 循环 。 循环 合并 是 用 户 
自然 会 使 用 的 一 种 变换 一 一 当 他 们 写 一 个 循环 时 ， 他 们 把 尽 可 能 多 的 代码 放 到 循环 里 。 基 于 
这 个 观点 ，Ardent 团 队 决 定 在 Ardent 编 译 器 中 不 实现 循环 合并 。 这 个 决定 的 原因 有 如 下 几 点 : 
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(1) 依赖 图 的 大 小 : ATRAER AIF, ROMAN RD Be TB BARE 
和 其 间 的 语句 。 这 很 快 就 会 变 得 很 大 。 

(2) 依赖 测试 的 简单 性 和 速度 : 很 多 关于 循环 交换 和 标量 扩展 的 决策 已 经 简化 了 编译 器 
需要 的 依赖 的 属性 。 去 掉 计 算 合 并 限制 条 件 的 要 求 又 多 消除 了 一 个 需要 作 决 策 之 处 。 

(3) TAR: 如 前 所 述 ， 我们 认为 循环 合并 用 于 一 般 的 程序 可 能 只 能 得 到 很 少 的 好 处 ， 
”因为 绝 大 多 数 程序 员 自 然 倾向 于 合并 。 在 某 种 我 们 确实 希望 合并 不 相交 循环 (展开 和 压 紧 ) 
的 情况 下 ， 安 全 性 可 以 在 需要 时 动态 地 计算 。 


重要 的 是 注意 这 个 限制 条 件 不 是 要 避免 所 有 的 循环 合并 ， 而 是 想 简化 本 来 不 相交 的 循环 
的 合并 。Ardent 优 化 器 会 合并 从 同一 个 循环 分 布 而 来 的 循环 ， 像 在 codegen 中 那样 ， 但 是 这 种 
类 型 的 合并 不 需要 任何 安全 性 计算 。 这 些 循环 原来 就 是 同一 个 ,这 一 事实 保证 它们 可 以 被 安全 
地 合并 。 同 样 需要 注意 Ardent 编 译 器 不 支持 Fortran 90 ， 它 需要 通过 合并 从 数组 语句 得 到 性 能 。 

Ardent Titan 编 译 器 的 总 的 并 行 代码 生成 策略 可 以 总 结 为 以 下 两 个 原则 : 

(1) 最 多 向 量化 一 个 循环 并 且 并 行 化 一 个 循环 。 

(2) 不 进行 任何 辅助 变换 (例如 标量 扩展 、if 转 换 或 循环 交换 ) ， 除 非 这 些 变换 确实 可 以 
提高 向 量化 、 并 行 化 或 者 内 存 重用 。 

第 一 个 原则 意味 着 代码 生成 算法 应 集中 于 找到 最 优 的 向 量 循环 和 并 行 循环 ， 而 不 是 所 有 
向 量 循环 和 并 行 循环 。 第 二 个 原则 意味 着 代码 生成 应 按 需 求 驱动 辅助 变换 ， 只 在 需要 时 才 实 
现 变 换 。 尽 管 这 两 个 原则 初 看 起 来 较 难 于 加 入 到 通用 的 codegen 算 法 中 去 ， 但 它们 实际 上 只 需 
要 很 小 的 改动 就 可 以 融和 到 一 般 的 方案 中 。Ardent 优 化 器 最 后 采取 的 总 策略 是 : 

(1) 所 有 依赖 边 都 带 有 一 个 叫做 “可 删除 性 ”的 属性 ， 扩 展 了 标量 扩展 中 引入 的 概念 。 
这 个 属性 为 真 时 表示 这 条 边 可 以 通过 某 种 变换 删除 。 

(2) 表示 控制 流 的 控制 边 被 显 式 地 加 入 到 依赖 图 中 ， 返 回 边 也 加 进去 ， 强 制 所 有 在 一 个 
控制 区 域内 的 语句 在 整个 codegen 过 程 中 都 在 一 起 。 分 布 产 生 的 循环 在 给 定 层次 标记 上 “可 并 
行 化 ”和 “可 向 量化 ”等 不 同属 性 。 所 用 的 Tajan 算 法 在 求 “parallelizable” 时 ， 忽 略 了 所 携 
带 的 控制 边 。 

(3) 第 一 遍 的 代码 生成 用 于 找 出 所 有 可 能 的 向 量 和 并 行 循环 。 这 一 信息 如 下 收集 : 首先 
从 图 中 暂时 删除 所 有 可 删除 的 边 ， 调 用 codegen 算 法 ， 不 在 任 一 步 生 成 并 行 或 向 量 代码 ， 而 是 
仅 记录 在 该 层 的 循环 能 否 以 向 量 或 并 行 方式 执行 。 这 一 遍 共 本 上 完成 所 有 可 能 的 依赖 环 消除 
变换 的 工作 ,但 是 仅 在 图 中 实现 它们 ， 而 不 是 在 源 代 码 中 实现 。 

(4) 在 确定 了 所 有 可 能 的 并 行 循环 和 向 量 循环 以 后 ， 代 码 生 成 器 对 这 些 循环 评分 以 确定 
最 佳 的 向 量 循环 和 并 行 循环 。 考 虑 的 因素 包括 跨 距 为 1 的 访问 、 分 散 -收集 的 不 足 、 循 环 长 度 
以 及 全 局 一 致 性 。 

(5) 代码 生成 器 最 终 调 用 一 遍 codegen 过 程 ， 主 要 针对 最 优 的 向 量 循环 和 并 行 循 环 。 当 
这 一 遍 codegen 遇 到 一 个 还 没有 向 量化 或 者 并 行 化 的 最 优 向 量 循 环 或 并 行 循环 时 ， 就 知道 需 
要 作 某 些 打破 依赖 环 的 变换 ， 并 作出 相应 的 选择 。 类 似 地 ， 在 这 个 方案 中 合并 类 似 区 域 也 是 
简单 的 。 


日 ”当然 ,这 是 因为 没有 考虑 到 机 器 生成 代码 的 可 能 性 ， 这 违反 了 所 有 正常 的 需求 ， 对 于 任何 编译 器 编写 人 员 
来 说 都 是 一 件 糟糕 的 事情 。 但 是 ， 总 是 有 些 程序 员 会 违反 合理 的 编程 规范 ， 这 也 是 事实 。 
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图 6-35 是 Ardent 优 化 器 使 用 的 代码 生成 策略 高 层 算法 概要 。 


procedure generate(T) 
U 7 是 需要 并 行 化 的 中 间 表 示 
为 T 计 算 依赖 图 D， 使 得 所 有 可 以 通过 某 种 方式 的 变换 消除 的 边 e 的 属性 deletablele) AK 
通过 删除 所 有 deletable(e) 为 真 的 罗 e， 从 D 计 算 Ds 


mark(D,, S); // 把 所 有 可 以 向 量化 或 者 并 行 化 的 循环 和 语句 存储 到 S 中 
score(Da, S), // 将 每 个 语句 存 人 最 优 的 向 量 和 并 行 循环 
codegen(D, S, T); /1/ 实际 生成 代码 


end generate 





图 6-35 Ardent Titan 代 码 生 成 概览 


作为 一 个 说 明 访 策略 有 效 性 的 简单 例子 ， 考 虑 和 矩阵 乘法 。 在 线性 代数 教科 书 中 的 标准 代 
码 把 求 和 归 约 循环 放 在 最 内 层 的 位 置 ， 如 下 所 示 : 
DO I = 1, 512 
DO J =1, 512 
(I,J) = 0.0 
DOK =1, N 
C(1,d) = C(1,J) + ACT, K)*8(K,d) 
ENDDO 
ENDDO 
ENDDO 
其 他 方面 都 一 样 ，Ardent 编 译 器 会 选择 I- 循 环 ， 因 为 它 保证 向 量 语句 的 跨 距 为 1， 这 样 在 
Titan 上 可 能 有 最 好 的 存 / 取 性 能 。 因 为 Titan 的 向 量 寄存 器 的 长 度 为 32， 它 把 循环 分 段 长 度 设 为 
32 并 把 它 移动 到 最 内 层 的 位 置 。 另 一 完全 并 行 的 循环 是 J- 循 环 ， 它 可 以 被 移动 到 最 外 层 位 置 。 
结果 代码 与 Titan 体 系 结构 匹配 得 极 好 : 
PARALLEL DO J = 1, 512 
DO I =1, 512, 32 
C(1:1431,d) = 0.0 
po K = 1, N 
C(1:1431,0) = C(1:1431,0) + ACT: 1+31,K)#B(K,J) 
ENDDO 
ENDDO 
ENDDO 


6.9 历史 评述 与 参考 文献 

标量 私有 化 是 Cytron 和 Ferrante [95] 以 及 Allen 等 [14] 在 PTRAN 自 动 并 行 化 项 目 中 提出 的 。 
数组 私有 化 的 必要 性 是 由 Eigenmann 等 [108] 在 对 Perfect 基 谁 测试 程序 的 研究 中 确认 的 ， 而 
Li[199] 找 述 了 进行 优化 的 方法 。 对 齐 和 分 布 最 早 是 由 Allen，Callahan 和 Kennedy[25] 提 出 。 

循环 交换 方法 已 被 广泛 地 使 用 。Wolfe 为 此 引入 了 方向 向 量 [280]。Allen 和 Kennedy 对 这 个 
问题 进行 了 进一步 的 研究 [19]。 基 于 方向 矩阵 的 形式 化 表述 是 新 的 ， 但 是 可 以 被 看 作 么 模 变换 
的 一 个 变形 ， 如 Wolf 和 Lam [277] 所 作 的 讨论 。 循 环 倾斜 是 Lamport[195] 提 出 的 波 前 方法 的 一 
个 变形 。 这 个 变换 本 身 是 由 Wolfe 提 出 的 [281]。 

数组 操作 和 流 操作 优化 的 循环 合并 有 很 长 的 历史 [124，118，163]。Allen ，Callahan 和 





Kennedy [25] 最 早 讨 论 了 将 循环 分 布 和 合并 结合 起 来 的 方法 。 带 类 型 的 合并 算法 和 它 在 单 层 多 
循环 并 行 化 的 应 用 由 Kennedy 和 McKinley [176] 提 出 。Kennedy 和 McKinley [176] 也 描述 了 
6.3.6 节 所 提 到 的 在 内 存 性 能 和 并 行 性 之 间 找 到 平衡 点 的 策略 。 
Cytron 在 Cedar 项 目 中 [93，94] 提 出 了 DOACR0S$S 的 概念 和 流水 线 并 行 性 的 处 理 方法 。 为 多 
处 理 器 调度 设计 的 面包 店 计数 器 算法 是 一 个 在 操作 系统 文献 中 经 常 引用 的 古老 的 策略 。 制 导 [315 
的 自 调 度 则 是 Polychronopoulos 和 Kuck [226，225] 提 出 的 。 
在 依赖 和 并 行 化 的 一 般 性 处 理 方面 的 一 些 出 色 的 工作 可 见 Allen 等 [14]、Amarasinghe [28] 
等 、Kuck 等 [190] 以 及 Wolfe 等 [283,285]。 
习题 
6.1 为 下 面 的 循环 修 套 构造 方向 矩阵 ， 并 说 明 如 何 并 行 化 这 些 循 环 以 达到 最 大 的 粒度 。 找 
述 并 行 化 这 些 循环 风 套 需要 的 变换 。 
a. DOJ= 1, M 
DOI=1, N 
A(I+1,0+1) = A(T, d+1) + C 
BCI+1,d+1) = BCI, J+1) + ACI+1,J) + D 
ENDDO 
ENDDO 
b. DOK =1,L 
pO J=1, M 
DOI=1,N 
A(I+1,J+l,K+l) = A(I,J+1,K+1) + ACI+1,J-1,K) + A(I+1,J,K+1) 
ENDDO 
ENDDO 
ENDDO 
c. DOK=1,L 
DO J=1, M 
DO I=1, N 
ACI+1, J+1,K+1) = ACI, J+1,K+1) + ACI+1,5,K) 
ENDDO 
ENDDO 
ENDDO 


6.2 证 明 下 列 问 题 是 NP 完 全 问题 : 给 定 一 个 有 N 个 循环 和 AM (MPN) RTE RE 
的 方向 矩阵 ， 找 出 能 够 覆盖 所 有 剩余 循环 的 最 小 个 数 的 循环 。 

6.3 说 明 如 何 利 用 图 6-20 的 选择 启发 式 方法 把 循环 反 转 并 入 到 图 6-19 给 出 的 例 程 Paralle- 
lizeNest 中 去 . 316 

6.4 开发 例 程 Parallelize 的 一 种 版 本 ; 同时 尝试 全 循环 并 行 化 (没有 结束 变换 ) 和 外 层 循 
环 分 布 (如 果 全 循环 并 行 化 不 能 生成 一 个 并 行 的 外 层 循环 )， 然 后 根据 某 种 评价 标准 从 中 选择 
最 佳 的 一 个 。 评 价 标准 不 需要 写 出 。 

6.5 适应 性 调度 对 计算 量 进行 划分 以 得 到 负载 平衡 。 一 个 对 立 的 方向 是 划分 数据 。 例 如 ， 
一 个 并 行 的 Web 服 务 器 接收 对 大 量 数据 文件 的 请 求 。 你 能 否 扩展 适应 性 调度 的 思想 ， 把 它 用 
于 在 并 行 服务 器 之 间 划 分 数据 ? 
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处 理 控制 流 


7.1 引言 

在 本 书 前 面 几 章 ， 我 们 主要 关注 的 是 针对 除 循环 外 ， 不 含 其 他 控制 流 的 程序 变换 。 换 句 
话说 ， 我 们 忽略 了 由 条 件 分 支 引发 的 问题 。 这 些 问 题 非常 难处 理 ， 因 为 控制 流 引 入 对 程序 变 
换 的 一 类 新 的 限制 ， 这 类 问题 不 是 数据 依赖 所 能 处 理 的 。 

我 们 以 下 面 的 循环 为 例 ， 说 明 由 控制 流 引 入 的 执行 限制 : 

DO 100 I = 1,N 

S; IF (A(I-1) .61. 0.0) GOTO 100 

S, ACI) = ACI) + B(I) * C a 

100 CONTINUE 
如 果 我 们 只 考虑 数据 依赖 ， 那 么 可 以 看 到 ， 由 于 对 A 的 引用 ，51 对 52: 有 一 个 循环 携带 依赖 ， 除 
此 之 外 没有 其 他 的 数据 依赖 。 因 此 ， 单 纯 的 数据 依赖 分 析 将 显示 这 两 个 语句 可 以 被 向 量化 。 
但 是 ， 由 于 我 们 不 知道 如 何 向 量化 一 个 带 有 60T0 的 IF 语句 ， 所 以 我 们 只 能 仍然 以 循环 的 方式 
来 实现 这 个 语句 ， 结 果 是 

S2 A(l:N) = A(1:N) + B(I:N) * C 

DO 100 T=1, N 

Sı IF (A(I -1) .6T. 0.0) GOTO 100 

100 CONTINUE 
这 里 ， 由 于 原 代码 中 从 S$: 到 Si: 的 依赖 ， 带 IF 语句 的 循环 只 能 在 向 量 语 句 之 后 出 现 。 

容易 看 出 这 段 代 码 是 不 正确 的 。 在 原来 的 代码 中 ， 语 句 S: 只 有 在 A(I-1) 比 0 大 的 循环 旬 代 
中 才 执 行 ; 在 转换 后 的 版 本 中 ， 这 个 语句 将 被 无 条 件 地 执行 。 很 明显 ， 我 们 忽略 了 阻止 我 们 
交换 S: 和 $: 顺 序 的 某 种 限制 。 如 何 才 能 避免 这 样 错 误 的 变换 呢 ? 根据 定理 2.8， 只 要 语句 不 是 
依赖 图 中 存在 的 依赖 环 的 一 部 分 ， 这 些 语 句 就 可 以 被 向 量化 。 所 以 ， 前 面 的 错误 变换 一 定 是 
由 于 我 们 忽略 了 一 个 从 Si 到 $: 的 依赖 。 这 个 依赖 是 一 个 控制 依赖 ， 是 由 于 S$: 的 执行 与 否 依赖 于 
Si 的 输出 而 导致 的 。 

在 本 章 中 ， 我 们 将 逐步 介绍 控制 依赖 的 概念 ， 并 且 将 前 面 几 章 中 的 结论 扩展 到 包含 条 件 
控制 的 程序 。 本 章 还 将 介绍 计算 和 处 理 控制 依赖 的 方法 。 

处 理 控制 依赖 主要 有 两 种 基本 的 策略 : 其 一 是 通过 把 控制 依赖 转换 成 数据 依赖 来 消除 控 
制 依赖 。 这 是 一 种 在 自动 向 量化 的 过 程 中 经 常 应 用 的 策略 ， 被 称 为 这 转换 ， 我 们 将 在 下 一 节 详 
细 介 绍 。 

第 二 种 策略 是 将 控制 依赖 作为 数据 依赖 的 扩展 来 处 理 ， 并 且 在 依赖 图 中 加 入 控制 依赖 边 。 
由 于 这 种 策略 可 以 产生 较为 简单 的 代码 ， 所 以 它 适合 运用 在 自动 并 行 化 中 ， 我 们 将 在 7.3 节 中 
介绍 这 种 策略 。 尽 管 这 种 策略 企图 避免 做 系统 的 if 转 换 ， 但 是 ， 为 了 产生 正确 的 代码 ， 我 们 仍 
然 可 以 看 到 有 些 情况 下 需要 类 似 于 if 转 换 的 变换 。 


© 
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7.2 if 转换 
如 果 将 引言 中 描述 的 问题 改写 为 如 下 不 带 60T0 的 形式 ， 这 个 问题 就 比较 容易 解决 了 。 
DO I=1,N 
IF ( AC I - 1).LE.0.0 )AC I) =ACT )+BC 1) *C 
ENDDO 


在 这 种 形式 中 ， 条 件 控制 可 以 被 看 成 是 这 个 语句 的 另 一 个 输入 ， 这 样 依赖 环 就 很 明显 了 。 
下 面 我 们 看 一 个 稍微 复杂 一 些 的 例子 : 


DO 100 T=1,N 


Sı IF (A(I-1).6T.0.0) GOTO 100 
Se A(T) = A(I) + BCI) * € 
Ss B(I) = B(I) + ACI) 


100 CONTINUE 
在 这 样 的 形式 下 ， 又 一 次 很 难看 出 我 们 是 否 可 以 对 5;: 和 5; 进 行 向 量化 。 
但 是 ， 上 面 的 例子 如 果 转 化 成 条 件 赋 值 语句 ， 
DO 100 I 1, N 
S; IF (ACI-1).LE.0.0) ACI) = ACI) + BCI) * C 
S3 IF (A(I-1).LE.0.0) BCI) = BCI) + ACI) 
100 CONTINUE 
数据 依赖 分 析 就 可 以 告诉 我 们 第 二 个 语句 可 以 被 向 量化 。 用 Fortran 90 中 的 WHERE 语句 将 上 面 
的 例子 以 向 量化 的 形式 重 写 ， 得 到 
DO 100 I=1, N 
Sz IF (A(I-1).LE.0.0) ACI) = ACI) + BCI) * € 
100 CONTINUE 
S; WHERE (A(O:N-1).LE.0.0) B(1:N) = B(1:N) + AC1:N) 
对 于 这 样 一 种 简单 清楚 的 从 分 支 到 条 件 执行 的 变换 ， 一 个 很 自然 的 疑问 是 : 是 否 这 种 变 
换 可 以 被 普遍 地 运用 于 所 有 形式 的 语句 和 程序 结构 。 换 名 话说 ， 是 否 通过 将 语句 转化 成 有 条 
件 控制 的 形式 (其 中 控制 语句 执行 的 条 件 可 以 看 作 是 语句 的 输入 ) ， 就 能 将 控制 依赖 转化 成 数 
据 依赖 ?从 本 章 将 会 看 到 ， 答 案 是 肯定 的 。if 转 挨 可 以 被 广泛 地 运用 在 向 量化 编译 器 中 。if 转 
换 可 以 把 所 有 的 控制 依赖 转换 成 数据 依赖 从 而 把 所 有 依赖 统一 成 为 一 种 形式 ， 理 论 上 它 是 一 
种 处 理 控制 依赖 的 完美 的 方法 。 


7.2.1 定义 

7.1 节 用 一 个 简单 的 例子 介绍 了 if 转 换 的 概念 。 简 单 地 讲 ，if 转 换 是 一 个 删除 程序 中 所 有 分 
支 的 过 程 。 当 然 ， 要 保证 程序 的 正确 执行 ， 分 支 不 能 被 简单 地 删除 ， 而 是 需要 用 其 他 成 分 代 
替 它 。if 转 换 引 和 一 个 控制 执行 的 概念 ， 就 是 说 每 个 语句 都 隐 式 地 包含 一 个 逻辑 表达 式 来 控制 
它 的 执行 。 只 有 当 它 的 控制 表达 式 的 值 为 真 时 ， 语 句 才 会 被 执行 。 

为 了 说 明 控制 执行 这 个 概念 ， 我 们 再 来 考虑 本 章 的 第 一 个 例子 中 循环 内 的 部 分 : 

Sı IF (ACI-1).GT.0.0) GOTO 100 


Se ACI) = ACI) +B(I) *C 
100 CONTINUE 


把 其 中 的 分 支 去 掉 ， 用 控制 执行 的 形式 来 改写 这 段 代 码 ， 结 果 是 
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Sı M = AC I-1) .6T.0.0 
Sz IF (.NOT.M) ACI) = ACI) + B(I) *C 
100 CONTINUE 
这 里 第 二 条 语句 上 的 控制 条 件 ( .NOT.M) 是 非常 自然 地 使 用 Fortran 中 的 IF 语句 来 表示 的 。 如 
果 没 有 控制 条 件 显 式 地 出 现 ， 那 么 我 们 假设 控制 条 件 为 真 ， 语 句 总 是 执行 。 
if 转 换 的 目标 是 删除 程序 中 的 所 有 分 支 ， 代 之 以 等 价 的 控制 语句 的 集合 。 有 了 Fortran 90 
中 的 WHERE 语句 ，ift 转 换 在 向 量化 中 就 有 明显 的 作用 ， 因 为 在 数据 依赖 允许 的 条 件 下 ， 控 制 执 
行 可 以 很 自然 地 翻译 成 WHERE 语句 。 
尽管 在 上 面 的 例子 中 ，ift 转 换 是 一 个 很 简单 的 过 程 ， 但 是 某 些 情况 下 它 是 很 复杂 的 。 为 了 
把 这 个 过 程 讲 述 清楚 ， 这 里 有 必要 先 将 分 支 归 为 不 同 的 类 型 。 
7.2.2 分 支 的 分 类 
为 了 便于 分 析 ， 分 支 可 以 分 为 三 种 类 型 : 
(1) 前 向 分 支 : 把 控制 转向 同一 循环 伐 套 层 中 本 分 支 语句 之 后 的 位 置 。 
(2) 后 向 分 支 : 把 控制 转向 同一 循环 媒 套 层 中 按 词法 序 在 本 分 支 语句 之 前 的 位 置 。 
(3) 出 口 分 支 : 结束 一 个 或 多 个 循环 ， 将 控制 转向 循环 嵌 套 之 外 的 位 置 。 
本 章 中 第 一 个 例子 表示 一 个 前 向 分 支 。 后 向 分 支 和 前 向 分 支 类 似 ， 但 后 向 分 支 会 引入 一 
个 陷 式 的 循环 ， 这 一 点 与 前 向 分 支 不 同 。 后 向 分 支 经 常 在 Fortran 66 和 Fortran 77 中 被 用 于 编写 
while 和 循环， 如 
10 I = NEXT (I) 
AC 1) = ACT) + BCT) 
IF ( I.LT.1000) GOTO 10 
tH 4? AE EEE BD, TAA Re koe BR OP SE. BEM RR 
的 方向 (向 前 跳 转 还 是 向 后 跳 转 ) 是 不 重要 的 。 出 口 分 支 经 常 被 用 于 类 似 于 如 下 的 “搜索 循 
环 ” 中 : 
DOI=1,N . 
IF (ABS(A(I) - B(I)).LE.DEL) GOTO 200 
ENDDO 


200 CONTINUE 
在 这 个 “搜索 循环 ”中 ， 在 数组 A 和 数组 B 中 的 一 对 元 素 在 数值 上 足够 接近 时 ， 就 发 生 跳出 。 

这 个 分 类 方法 中 没有 包含 跳 转 到 循环 内 的 分 支 。 这 种 现象 在 Fortran 中 是 非法 的 ， 但 在 C 和 
其 他 语言 中 可 能 出 现 。 本 书 不 处 理 这 类 分 支 (完整 的 处 理 参 见 Allen 等 的 论文 [23] ) 。 

if 转换 实际 上 是 两 种 不 同 变换 的 组 合 : 

(1) 分 支 重 定 位 将 分 支 移出 循环 ， 直 到 分 支 语句 和 它 的 目标 位 置 处 在 同样 的 00 各 套 循环 
中 一 一 这 个 过 程 是 把 出 口 分 支 转换 成 前 向 分 支 或 后 向 分 支 。 

(2) 分 支 删 除 通过 计算 分 支 控制 范围 内 的 操作 语句 的 控制 表达 式 ， 并 依据 这 些 控制 表达 
式 的 条 件 执 行 ， 删 除 前 向 分 支 。 
下 面 几 小 节 将 详细 介绍 这 两 种 技术 。 


7.2.3 前 向 分 支 
if 转换 中 最 简单 的 变换 是 分 支 删除 ， 该 变换 通过 插入 相应 的 控制 表达 式 删 除 循环 内 的 前 向 
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分 支 。 分 支 删 除 的 基本 思想 是 遍历 程序 ， 维 护 一 个 布尔 表达 式 ， 表 示 只 有 这 个 逻辑 条 件 必须 
为 真 时 ， 当 前 语句 方 能 执行 。 遇 到 一 个 新 的 分 支 时 ， 把 这 个 分 支 的 控制 表达 式 结合 到 当前 的 
逻辑 控制 条 件 当 中 。 当 遇 到 一 个 分 支 的 目标 ， 则 把 这 个 分 支 的 控制 表达 式 从 当前 的 逻辑 控制 
条 件 中 分 离 。 

前 面 的 例子 说 明了 非常 简单 的 分 支 删除 ， 只 涉及 到 一 个 60T0。 一 般 来 说 ， 分 支 删 除 可 以 
非常 复杂 ， 如 下 例 所 示 : 


DOI=1,N 
Ci IF (A(I).6T.10) 60T0 60 
20 ACI) = ACI) +10 
C2 IF (B(I).GT.10) GOTO 80 
40 B(I) = B(I) +10 


60 A(T) = B(I) +A(T) 
80 = B(I) = A(I) -5 
ENDDO 
为 了 在 这 个 循环 中 执行 分 支 删除 ， 确 定 对 每 条 赋值 语句 有 效 的 控制 表达 式 是 必需 的 。 很 
明显 ， 当 且 仅 当 Ci 中 的 条 件 为 假 时 ,语句 20 才 会 执行 。 同 样 ， 当 且 仅 当 C: 和 (5 的 条 件 都 为 假 时 ， 
语句 40 才 会 执行 。 语 句 60 和 80 比 较 复杂 。 语 句 60 可 以 在 C1 和 C2 都 为 假 时 直接 达到 ， 也 可 以 在 
0 为 真 时 由 语句 C1 跳 转 到 。 语 句 80 可 以 在 执行 完 语句 60 后 达到 (这 种 情况 下 ， 它 和 语句 60 由 
同样 的 条 件 控制 )， 也 可 以 直接 从 C6; 跳 转 到 (C1 为 假 而 6; 为 真 )。 正 确 的 分 支 删除 应 产生 下 面 的 
代码 : 
D0 1=1,N 
ml = A(I) .6T.10 
20 IF (.NOT.m1) A(I) = A(T) +10 
IF(.NOT.m1) m2 = BCI) .GT.10 
40 IF(.NOT.m1 .AND. .NOT.m2) B(I) = B(I) + 10 
60 IF(.NOT.ml .AND. .NOT.m2 .OR.m1) ACI) = BCI) + ACT) 
80 IF(.NOT.m1 .AND. .NOT.m2 .OR.m1 .OR. .NOT.m1.AND.m2) 
B(I) = ACI) -5 
ENDDO 
表面 上 看 ， 循 环 结束 的 控制 条 件 显 得 复杂 。 但 是 ， 当 这 个 条 件 从 符号 上 简化 后 ， 控 制 流 
变 得 比较 清晰 和 简单 了 。 语 句 80 事 实 上 被 无 条 件 执行 ， 语 句 60 当 第 一 个 分 支 跳 转 或 第 二 个 分 
支 不 跳 转 时 执行 。 简 化 后 的 循环 变 为 下 面 的 形式 : . 
DOI=1,N 
ml = A(I).GT.10 
20 IF (.NOT.m1) ACI) = ACI) +10 
IF(.NOT.m1) m2 = B(I).GT.10 
40 IF(.NOT.m1.AND..NOT.m2) BCI) = BCI) + 10 
60 IF(m1.OR..NOT.m2) ACI) = BCI) + ACI) 
80 B(I) = A(I) -5 
ENDDO - 
在 计算 数据 依赖 和 进行 标量 扩展 ( 见 5.3 节 ) 后 ， 这 种 形式 的 循环 向 量化 就 很 简单 了 ， 其 
结果 可 以 用 Fortran 90 中 的 WHERE 语句 表示 如 下 : 


ml(l:N) = AC1:N).GT.10 
20 WHERE (.NOT.m1(1:N)) A(1:N) = A(1:N) +10 
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WHERE( .NOT.mi(1:N)) m2(1:N) = BC(1:N).GT.10 

40 WHERE( .NOT.m1(1:N).AND..NOT.m2(1:N)) BC1:N) = B(1:N) + 10 

60 WHERE(m1(1:N).OR. .NOT.m2(1:N)) AC1:N) = B(1:N) + AC1:N) 

80 B(1:N) = A(1:N) -5 

这 个 例子 中 有 两 点 需要 说 明 。 第 一 ， 仔 细 观 察 转 换 后 的 循环 可 以 发 现 变量 m2 未 被 初始 化 
值 可 能 在 语句 40 和 60 中 引用 。 事 实 上 ， 这 一 点 是 真 的 ; 但 是 ， 这 些 未 被 初始 化 的 值 不 会 导致 
任何 不 利 的 结果 。 在 任 一 个 特定 的 迭代 中 ，m2 在 ml 为 真 时 不 会 被 赋值 。 语 句 40 只 有 当 m1 为 假 
而 m2 为 真 时 才 会 被 执行 。 由 于 m1 为 假 会 迫使 m2 被 正确 地 赋值 ， 所 以 ， 语 句 40 不 可 能 出 现 由 于 
m2 未 被 初始 化 而 导致 的 错误 执行 。 同 样 ， 语 句 60 只 有 在 m1 为 真 或 m2 为 假 时 执行 。 如 果 m1 为 真 ， 


m2 不 被 赋值 ， 但 是 这 时 不 管 m2 的 值 如 何 ， 这 个 语句 都 将 被 执行 。 如 果 吧 为 假 ， 从 而 由 m2 单 独 


控制 这 个 语句 的 执行 时 ，m2 被 正确 地 初始 化 。 

第 二 点 涉及 到 布尔 控制 表达 式 的 复杂 度 。 很 明显 ， 一 些 形式 的 布尔 简化 对 于 最 后 得 到 理 
想 的 代码 是 十 分 重要 的 。 有 关 简 化 的 问题 将 在 7.2.7 节 讨论 。 

图 7-1 给 出 前 向 分 支 删 除 的 一 个 更 为 形式 化 的 说 明 。 其 中 假定 IF~THEN-ELSE 的 删除 是 很 容 
易 的 ， 不 予 讨 论 ， 而 且 假 设 只 有 有 标号 的 语句 才能 由 分 支 语句 达到 。 在 算法 记号 中 ， 控 制 条 
件 是 Fortran 90 中 用 的 字符 串 。 这 是 为 了 让 读者 记 住 ， 通 过 生成 化 简 后 的 文本 代码 ， 条 件 将 被 
用 于 在 编译 时 修改 程序 。 

procedure remove_branches(B) 


/输入 : 一 个 循环 8， 循 环 体内 有 一 系列 的 语句 
/ 输出 : 一 个 没有 条 件 转移 的 循环 


current : =“. TRUE.”; 
for each 8 中 带 标号 语句 9 do cond(S) :=“.FALSE.”; 


for each 8 中 带 标号 语句 S$ 按 顺 序 do begin 

if S 是 带 标 号 的 

then current := Simplify (current I “ .OR.” ll cond(S)); 

if S 是 条 件 转移 : IF(C) GO TO L 

then begin 
设 $ 是 带 标号 5 的 语句 ; 
设 吓 编译 问 产 生 的 新 的 逻辑 变量 ， 初 始 化 为 true; 
RE ep “IF (current) m: =C”; 
cond(S,) :=cond(S,) Il “.OR.” tl current Il“ . AND . m”); 
current :=current \l‘*.AND..NOT.m” ; 

end ; 

else if S 的 形式 是 : IF(C)S, 其 中 $ 不 是 转移 
then 转 换 为 “IF(C .AND .current) S”; 

else 
转换 为 “IF(current) S” ; 


end remove_branches 








图 7-1 前 向 分 支 删 除 


正确 性 ”我们 现在 来 讨论 分 支 删除 的 正确 性 。 回 忆 在 2.2.3 节 中 ， 我 们 定义 了 转换 后 的 程 
序 等 价 于 原 程序 的 条 件 是 : (1) 在 输出 点 ， 两 个 程序 的 输出 变量 的 值 相同 ; (2) 输出 语句 以 
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相同 的 顺序 执行 ; (3) 转换 后 的 程序 不 能 引入 在 原 程序 中 不 出 现 的 错误 异常 。 在 此 定义 下 ， 
我 们 必须 证 实 以 下 三 个 事实 来 证 明 转 换 的 正确 性 : 

(1) 新 程序 的 语句 实例 的 控制 表达 式 为 真 ， 当 且 仅 当 相应 的 语句 在 原 程序 中 会 被 执行 ， 
除非 新 语句 的 引入 是 为 了 计算 控制 条 件 的 值 ， 这 些 语 句 必须 在 原 程序 中 计算 条 件 表达 式 的 点 
被 执行 。 

(2) 新 程序 中 控制 条 件 为 真 的 语句 执行 顺序 应 同 原 程序 中 那些 语句 执行 的 顺序 一 样 。 

(3) 计算 有 副作用 的 表达 式 的 次 数 在 新 旧 程 序 中 应 相同 。 

上 述 的 第 一 个 条 件 可 以 通过 语句 顺序 方面 的 归纳 来 证 实 。 我 们 的 目标 是 证 实 每 条 语句 上 
的 控制 条 件 确实 是 使 原 程 序 中 语句 执行 的 条 件 集合 。 在 处 理 第 一 句 时 ， 空 条 件 集 合 显然 是 正 
确 的 。 假 设 前 面 的 所 有 语句 的 控制 条 件 都 正确 的 。 我 们 必须 证 明 当前 语句 的 控制 条 件 是 正确 
的 。 当 前 语句 的 控制 条 件 是 由 与 它 关 联 的 两 部 分 析 取 构成 的 ， 一 部 分 是 通过 前 面 的 分 支 跳 转 
到 达 这 个 语句 的 条 件 cond($/)， 另 一 部 分 是 由 它 前 一 条 语句 传递 的 控制 条 件 。 这 说 明 控 制 可 以 
通过 分 支 到 达 一 个 语句 ， 也 可 以 通过 这 条 语句 的 前 一 条 语句 直接 到 达 这 个 语句 。 

由 分 支 到 达 语 句 的 条 件 一 定 是 正确 的 ， 因 为 每 个 这 样 的 条 件 是 由 那个 分 支 的 当前 条 件 
(按照 归纳 这 个 条 件 是 正确 的 ) 和 这 样 一 个 变量 的 合 取得 到 的 ， 该 变量 用 于 保存 控制 这 个 分 支 
的 条 件 表达 式 的 值 。 所 以 ， 所 有 这 些 条 件 的 析 取 cond(51) 为 真 ， 当 且 仅 当 某 个 控制 条 件 为 真 
的 分 支 语 句 跳 转 到 Si。 

这 样 ， 我 们 就 只 需 证 明 直通 下 来 的 这 部 分 条 件 是 正确 的 。 按 照 归纳 在 前 一 语句 当前 条 件 是 正 
确 的 。 因此， 当 那 个 语句 不 是 一 个 条 件 分 支 语句 时 ， 当 前 语句 的 条 件 和 前 面 语句 的 条 件 是 相同 的 ， 
也 必然 是 正确 的 。 对 于 条 件 分 支 语句 ， 直 通 下 来 的 当前 条 件 是 如 下 两 个 条 件 的 合 取 : 当前 条 件 和 
保存 控制 分 支 的 条 件 的 变量 的 “ 非 "*。 这 样 ， 由 上 一 语句 传 到 当前 语句 的 当前 条 件 是 上 一 条 语句 
的 当前 条 件 和 一 个 变量 的 “ 非 ” 的 合 取 ， 该 变量 保存 控制 分 支 的 表达 式 的 值 。 因 此 ， 当 前 语句 的 
控制 条 件 为 真 ， 当 且 仅 当前 一 条 语句 被 执行 并 且 分 支 跳 转 不 被 执行 。 这 显然 是 正确 的 。 

以 上 第 二 个 条 件 显然 是 为 真 ， 因 为 我 们 没有 重 排 语句 的 顺序 。 第 三 个 条 件 可 以 由 第 一 个 
条 件 和 以 下 这 个 观察 结果 证 实 : 控制 每 个 条 件 分 支 的 条 件 只 在 分 支 将 被 定位 的 点 计算 一 次 。 
所 有 其 他 语句 都 准确 地 和 原 程序 中 的 相应 语句 在 相同 选 代 中 的 相同 位 置 被 执行 。 

请 注意 ， 无 条 件 的 前 向 分 支 语句 也 可 以 用 上 面 的 算法 处 理 ， 只 需 把 它们 看 作 是 条 件 为 永 
真 的 条 件 分 支 。 


7.2.4 出 口 分 支 
出 口 分 支 的 消除 比 前 向 分 支 更 加 复杂 。 原 因 是 前 向 分 支 只 影响 分 支 之 后 的 语句 的 控制 条 
件 ， 而 出 口 分 支 则 对 它 之 前 和 它 之 后 的 语句 都 有 影响 。 考 查 下 面 的 简单 程序 段 : 


D0I=1,N 
Sı 
IF (p(I)) GOTO 100 


如 果 p(I) 为 真 的 第 一 个 循环 迭代 为 I,，， 那 么 整个 循环 将 在 这 一 点 停止 执行 。 当 这 个 循环 
转化 为 控制 执行 的 形式 后 ， 这 个 00 循 环 将 执行 包括 Io 和 其 后 的 所 有 迭代， 因为 它 不 能 通过 分 
支 来 早 结束 这 个 循环 。 在 目前 的 形式 下 ，5 将 在 迭代 10 到 N 不 被 执行 ，5; 在 迭代 i+1 到 N 不 被 执 
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行 。 出 口 分 支 影响 整个 循环 中 所 有 语句 的 事实 使 它们 比 简单 的 前 向 分 支 更 加 难 被 消除 。 
由 于 出 口 分 支 最 复杂 的 特性 是 它们 将 会 使 循环 结束 ， 消 除 这 个 特性 就 是 将 它们 转化 成 控 
制 执 行 的 形式 的 关键 问题 。 如 果 分 支 能 被 重 定 位 在 它 能 结束 的 所 有 循 坏 之 外 ， 此 时 得 到 的 分 
支 就 是 一 个 简单 的 前 向 分 支 。 为 了 说 明 如 何 实现 这 个 重 定 位 ， 看 如 下 的 例子 : 327 
DOJ=1,M 
DOI=1,N 
A(I,J) = BCI, J) + X 
s IF (L(I,J)) GOTO 200 
C(I,J) = A(I,J) +Y 
ENDDO 
D(J) = A(N,J) 
200  F(J) = c(10, J) 
ENDDO 


分 支 语句 $ 跳 出 一 个 循环 。 如 果 ， 可 以 把 $ 从 一 个 出 口 分 支 转化 成 一 个 前 向 分 支 ， 那 么 ， 
一 定 会 有 一 个 变换 产生 和 如 下 代码 类 似 的 结果 : 


DO J=1, M 
DO I=1,N 
IF (C,) ACI,J) = BCI, J) +X 
Sa Code to set C; and C; 
IF (C) C(I,J) = ACI,d) +Y 
ENDDO 
Sp IF (.NOT.C,.0R..NOT.C,) GOTO 200 
D(J) = A(N,J) 
200 F(J) = C(10, J) 
ENDDO 


在 这 种 形式 下 ， 原 来 的 出 口 分 支 已 经 被 移出 循环 外 ， 变 成 了 语句 Se。 这 是 一 个 简单 的 前 向 分 
支 ， 可 以 用 图 7-1 中 的 算法 来 删除 。 于 是 ， 这 个 问题 就 转化 为 寻找 合适 的 条 件 去 控制 内 层 循环 
中 的 语句 。 

简单 地 说 ， 内 层 循环 中 的 语句 只 有 在 过 去 的 选 代 中 出 口 分支 没 有 跳出 的 情况 下 才 会 执行 。 
换 名 话说， 一旦 一 个 迭代 执行 ， 其 中 控制 出 口 分 支 的 条 件 为 真 ， 后 面 的 迭代 就 不 会 再 执行 了 。 
这 样 ， 我 们 需要 迭代 地 计算 一 个 变量 ， 即 一 旦 它 在 任何 一 个 出 口 分 支 条 件 成 立 的 多 代 中 被 置 
为 假 ， 则 它 以 后 就 一 直 为 假 。 这 样 的 变量 是 循环 中 所 有 其 他 语句 的 正确 的 控制 条 件 。 计 算 这 
样 一 个 变量 并 不 难 ， 它 是 所 有 前 面 迭 代 中 出 口 分 支 的 控制 条 件 取 非 的 “ 合 取 “: 


Im = =L¢k, 3) (7-1) 
在 前 面 的 例子 中 应 用 这 个 变换 ， 得 到 下 面 的 代码 : 328 
D0 J=1, M 
Im = . TRUE. 
DO I=1,N 


IF (Im) ACI,d) = B(I,J) +X 

IF (Im) ml=.NOT. L(I,J) 

Im = Im .AND. ml 

IF (im) C(I,J) = ACI, J) + Y 
ENDDO 
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m2 = Im 
IF (m2) D(J) = A(N,J) 
200 F(J) = C(10, J) 
ENDDO 
注意 变量 m1 的 引入 是 为 了 计算 条 件 L(I,K)， 这 个 条 件 的 计算 可 能 有 副作用 ， 所 以 这 里 保证 了 
只 有 当 原 程序 执行 这 个 计算 时 ， 变 换 后 的 程序 中 才 会 执行 。 向 前 替换 m2 并 把 1m 标 量 扩展 成 为 
二 维 数组 ， 结 果 是 
DO J=1, M 
1m(0,J) = .TRUE. 
DOIT=1, N 
IF (1m(I-1,9)) ACT,J) = BCI,d) +X 
IF (tm(I-1,J0)) ml=.NOT. L(I,J) 
Im(I,d) = Im(I-1,d) .AND. mi 
IF (Im(1,9)) C(I, J) = ACI, J) +Y 
ENDDO 
IF (1m(N,J)) DCJ) = ACN,J) 
200 F(J) = C(10, J) 


ENDDO 
当 对 这 段 代码 应 用 codegen 之 后 ， 就 得 到 下 面向 量化 的 循环 : 
DOJ=1,M 
lm(0,J) = .TRUE. 
DOI=1,N 


IF (tm(I~1,0)) ml=.NOT. L(I,J) 
1m(I,J) = Im(I-1,0) .AND. ml 
ENDDO 
ENDDO 
WHERE (1m(0:N-1,1:M)) AC1:N,1:M) = BC1:N,1:M) +X 
WHERE (1m(0:N-1,1:M)) CC1:N,1:M) = AC1:N, 1:M) + Y 
WHERE (1m(N,1:M)) D(1:M) = A(N,1:M) 
200 F(1:M) = C(10, 1:M) 
这 样 尽 可 能 地 实施 向 量化 ， 产 生 4 个 向 量化 循环 ， 看 上 去 可 能 是 非常 有 效 的 。 但 是 ， 这 不 
是 最 有 效 的 方案 。 更 好 的 方法 是 只 扩展 内 层 循 环 中 的 标量 1m， 而 不 是 在 两 层 循环 中 都 扩展 它 : 
DO J=1,™ 
1m(0) = . TRUE. 
DO I=1,N 
IF (1m(1-1)) ACI,J) = B(I,J) +X 
IF (im(I-1)) ml=.NOT. L(I,J) 
1m(I) = Im(I-1) .AND. ml 
IF (lm(I)) C(1,J) = A(I,J) + Y 
ENDDO 
IF (1m(N)) D(J) = ACN,d) 
200 F(J) = C(10, J) 
ENDDO 


向 量化 后 变 为 


DOJ=1, M 
1m(0) = . TRUE. 
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DOI=1,N 
IF (1m(I-1)) ml=.NOT. L(I,J) 
ImCI) = Im(I-1) .AND. ml 
ENDDO 
WHERE (Im(0:N-1)) AC1:N,J) = B(1:N,J) +X 
WHERE (1m(1:N)) C(1:N,J) = A(1:N,J) + Y 
IF (Im(N)) D(J) = A(N, J) 
200 F(J) = C(10, J) 
ENDDO 
聪明 的 归 约 识别 算法 可 以 识别 出 保留 的 I- 循 环 实际 上 是 个 “FirstTrue” 归 约 ， 所 谓 
“FirstTrue” 归 约 是 可 以 找到 一 个 向 量 中 第 一 个 为 真 的 分 量 的 索引 的 函数 。 在 一 个 有 适当 便 件 
支持 的 机 器 上 〈 这 个 硬件 非常 简单 ， 容 易 被 加 入 ) ， 相 应 的 代码 为 : 
DO J=1, M 
n = FirstTrueX(L(1:N,J)) -1 
A(1:n+1,0) = B (1:n+1,J) +X 
Clin, J) = Ai:n,J) + Y 
IF (n. GT.N) D(J) = A(N,J) 
200 F(J) = €(10,d) 
ENDDO 
其 中 内 置 向 量 函数 FirstTrueX 返 回 逻 辑 参数 数组 中 的 第 一 个 为 TRUE ' 值 的 索引 ， 当 其 中 设 
有 为 真 的 值 时 ， 返 回 参数 数组 的 长 度 加 1。 在 大 多 数 向 量 机 上 ， 这 样 的 代码 比 二 维 向 量化 代码 
更 为 有 效 。 原 因 是 ， 二 维 形式 的 代码 工作 在 变 长 的 向 量 上 ， 也 就 是 说 WHERE 语句 在 整个 I- 循 环 
上 操作 ， 但 事实 上 这 个 向 量 可 以 在 循环 上 被 安排 得 很 密集 〈 即 无 条 件 地 执行 )， 直 到 出 口 分 支 
被 执行 时 完全 跳出 循环 ， 从 而 完全 跳 过 后 面 的 部 分 。 
和 前 向 分 支 删除 一 样 ， 分 支 重 定位 的 基本 过 程 是 对 于 要 进行 出 口 分 支 消除 的 循环 ， 精 确 
地 计算 控制 循环 内 每 条 语句 执行 的 布尔 控制 表达 式 。 这 个 算法 在 图 7-2 中 给 出 。 循 环 中 出 口 分 
支 条 件 x 的 计算 仍然 是 不 带 控制 表达 式 的 ， 这 样 是 为 了 使 它 被 扩展 成 一 个 向 量 或 一 个 数组 时 ， 
仍然 能 像 上 面 的 例子 一 样 得 到 正确 的 结果 。 这 样 不 会 导致 含义 上 的 差异 ， 因 为 语句 本 身 被 设 
计 成 无 副作用 的 。 


procedure relocate_branches(1) 


1 [是 循环 中 的 D0 语句 
1 18 是 用 来 控制 循环 中 每 条 语句 的 循环 控制 表达 式 
: for each 循环 ! 中 的 D0 语句 d do 
relocate_branches(d); 
设 1g = null; 


: for each 出 口 分 支 “IFC@) G0 TO S” do begin 
建立 一 个 新 循环 出 口 标记 xXx; 
在 /之 前 插入 赋值 “x= .TRUE.”; 
if lg=null then ig:= “x” ; else lg: =igll “AND x’; 
在 循环 后 插入 分 支 “IF (.NOT.x) GO TO S°; 
产生 一 个 新 的 布尔 变量 m 并 用 一 对 语句 “m= .NOT.p” 后 跟 “x=X.AND.m” 代 杰出 口 分 支 


图 7-2 分 支 重 定位 算法 








N 
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end 
for each His 4E-DOIE s do 
if guard(s) = null begin 
if s 中 赋值 的 变量 不 是 i 中 的 标记 
then guard(s) : =/g: 


end 
else guard(s) : = guard(s).AND J/g; 


end relocate_branches 





图 7-2 (#8) 


过 程 relocate_branches 消 除 它 处 理 的 循环 和 包含 在 这 个 循环 内 的 任何 循环 中 的 出 口 分 支 。 
算法 中 在 $1 处 的 递归 调用 是 删除 内 部 循环 中 的 出 口 分 支 的 关键 ， 这 个 过 程 把 出 口 分 支 从 包含 
的 循环 中 删除 。 这 个 递归 调用 必须 在 循环 体 的 语句 $5 开始 之 前 执行 。 原 因 是 一 个 跳出 多 个 循 
环 的 内 层 循环 分 支 也 可 能 跳出 循环 !， 因 此 ， 必 须 在 以 3: 开 始 的 循环 体 中 予以 删除 。 

正确 性 ”图 7-2 中 的 relocate_branches 算 法 必须 在 以 下 情形 才 是 有 用 的 : (1) 对 一 个 循环 
应 用 这 个 算法 不 会 改变 程序 的 含义 ， 就 是 说 这 个 算法 不 会 重 排序 、 添 加 或 删除 语句 实例 ，(2) 
这 个 算法 消除 它 处 理 的 循环 中 的 所 有 出 口 分 支 。 

首先 ， 我 们 证 明 算法 relocate_branches 删 除 所 有 的 出 口 分 支 ， 这 是 比较 简单 的 情形 。 按 定 
义 ， 语 名 S$: 处 的 循环 可 以 找到 输入 循环 中 的 所 有 出 口 分 支 ， 并 用 赋值 语句 代替 这 些 分 支 。 算 
法 在 所 检查 的 循环 外 构造 新 的 分 支 ， 所 以 它们 不 可 能 是 那个 循环 的 出 口 分 支 。 通 过 简单 的 归 
纳 可 得 ， 对 relocate_pranchnes 的 递归 调用 删除 内 层 循环 中 的 所 有 出 口 分 支 。 结 果 ， 通 过 对 
relocate_branches 的 调用 ， 被 检查 的 循环 内 部 的 所 有 出 口 分 支 都 被 删除 了 。 

证 明 程序 的 含义 不 变 比较 复杂 一 些 。 由 于 没有 在 循环 中 添加 或 删除 语句 ， 证 明 算 法 的 正 
确 性 需要 证 明 循 环 内 的 语句 以 原 顺 序 执行 ， 直 到 出 口 分 支 的 条 件 为 真 时 ， 且 此 后 没有 再 执行 
下 去 。 在 任何 出 口 分 支 条 件 变 为 真 的 选 代 中 ， 与 此 分 支 相 关 的 控制 变量 x 都 会 在 原 出 口 分 支 所 
在 的 精确 位 置 被 置 为 假 。 由 于 循环 控制 表达 式 是 循环 中 各 个 出 口 分 支 的 出 口 控制 变量 的 合 取 。 
所 以 ， 只 要 任何 一 个 出 口 控制 变量 为 假 ， 循 环 控制 变量 都 会 立即 变 为 假 ， 并 且 将 一 直 保 持 为 
假 。 又 由 于 循环 控制 表达 式 被 加 入 到 循环 体 中 每 个 语句 的 控制 表达 式 中 ， 所 以 ， 每 个 语句 的 
控制 表达 式 也 会 同时 变 为 假 ， 故 循环 中 没有 语句 会 被 执行 。 由 于 循环 中 语句 的 执行 顺序 没有 
变 ， 并 且 计 算出 口 分 支 条 件 的 点 也 与 原 程序 中 计算 这 些 条 件 的 点 相同 ， 所 以 ， 变 换 后 的 程序 
与 原 程 序 执行 同样 的 语句 且 保 持 语 句 的 执行 顺序 。 . 

留 下 的 问题 是 循环 结尾 处 的 条 件 分 支 是 否 正确 ? 请 注意 ， 只 有 一 个 出 口 分 支 控制 变量 会 
被 吐 成 假 ， 因 为 一 旦 一 个 分 支 控制 变量 被 置 成 假 ， 不 可 能 有 其 他 控制 变量 被 置 为 假 ， 由 于 此 
时 的 循环 控制 表达 式 已 经 是 假 了 。 所 以 ， 紧 接 在 循环 后 的 条 件 分 支 中 只 有 一 个 会 被 执行 。 如 
果 这 些 条 件 都 为 假 ， 将 开始 执行 原 程序 中 循环 后 的 第 一 条 语句 。 这 一 点 完备 了 正确 性 证 明 的 
论证 。 

这 个 正确 性 的 论证 不 能 用 于 控制 所 跳出 的 循环 的 归纳 变量 的 值 ; 如 果 从 出 口 分 支 跳出 ， 
循环 归纳 变量 在 经 过 算法 relocate_branches 之 后 将 有 一 个 不 同 的 值 。 为 了 能 正确 处 理 这 种 情况 
( 由 于 出 口 分 支 经 常用 于 结束 搜索 循环 ， 此 时 循环 变量 保存 了 搜索 结果 ， 所 以 正确 处 理 这 种 情 
况 是 很 必要 的 ), 可 以 用 编译 器 产生 的 变量 1 来 代替 循 环 控制 表达 式 中 的 循环 归纳 变量 I。 这样， 
原来 用 来 控制 循环 控制 条 件 的 语句 





IF (19) x =.NOT.p 


可 以 替换 为 条 件 语句 块 
IF (1g) THEN 
x =.NOT.p 
I=i 
ENDIF 
所 以 循环 归纳 变量 最 后 的 值 被 保存 下 来 了 。 同 时 ， 这 要 求 在 所 有 被 移动 的 分 支 由 relocate_branches 
插入 紧 接 循环 的 位 置 之 后 ， 也 保存 这 个 值 。 


7.2.5 后 向 分 支 

到 现在 为 止 、 已 经 介绍 了 两 类 前 向 分 支 的 处 理 方法 (包括 跳出 循环 和 不 跳出 循环 )。 剩 下 
的 一 种 可 能 性 〈 跳 人 循环 ) 在 Fortran 的 标准 中 是 禁止 的 。 因 此 ， 可 以 认为 7.2.4 节 完整 地 介绍 
了 所 有 前 向 分 支 的 处 理 方法 ， 接 下 来 需要 介绍 剩 下 的 一 种 分 支 一 一 后 向 分 支 的 处 理 方法 。 但 
是 ， 后 向 分 支 会 使 前 向 分 支 的 处 理 变 得 复杂 ， 因 为 它们 会 造成 前 向 分 支 中 没有 介绍 的 那 种 可 
能 性 一 一 跳 入 循环 的 分 支 。 总 体 上 讲 ， 后 向 分 支 的 复杂 至 少 是 由 于 以 下 两 个 原因 : 

(1) 它们 造成 了 隐 式 的 循环 。 后 向 控制 流 是 循环 的 基本 要 素 ， 循环 不 能 用 一 个 简单 的 控 
制 条 件 〈 像 前 向 分 支那 样 ) 来 模拟 。 消 除 后 向 分 支 需 要 其 他 的 能 代表 后 向 控制 流 的 机 制 。 

(2) 由 于 它们 造成 前 向 分 支 可 能 跳 入 的 循环 ,使 前 向 分 支 的 消除 变 得 复杂 。 

下 面 的 例子 显示 这 种 复杂 性 : 

IF (P) 60T0 200 


100 S, 
200 Sz 


IF (Q) 6070 100 
应 用 图 7-1 所 示 的 前 向 计 转 换算 法 后 ， 产 生 


mi = .NOT. P 
100 IF (ml) S; 
200 S; 


IF (Q) GOTO 100 

如 果 在 跳 转 到 200 的 前 向 分 支 后 面 接 一 个 跳 转 到 100 的 后 向 分 支 ， 则 控制 变量 m1 的 值 将 
为 .FALSE.， 因 此 在 再 次 到 达 200 之 前 的 语句 不 会 被 执行 。 但 事实 上 ， 这 些 语句 在 原 程序 中 是 
应 当 被 执行 的 。 
由 于 这 些 复杂 性 ， 后 向 分 支 不 能 被 隔离 出 来 简单 地 处 理 。 相 反 ， 它 们 应 当 和 那些 涉及 到 
的 前 向 分 支 合 并 起 来 同时 处 理 。 最 简单 的 处 理 方案 是 将 后 向 分 支 隔离 出 来 ， 让 这 些 后 向 分 支 
控制 之 下 的 语句 ( 称 为 隐 式 碗 代 区 域 ) 保持 不 变 。 这 种 方案 引入 了 一 个 较为 严重 的 限制 ,使 
隐 式 选 带 区 域 中 的 前 向 分 支 不 能 被 删除 。 所 以 ， 这 种 方案 过 于 简单 ， 对 于 面向 Fortran 77 的 产 
品 编译 器 来 说 ， 是 不 实用 的 。 


w 
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Allen 等 人 在 1983 年 发 表 的 一 篇 论文 [23] 示 范 了 如 何 通过 it 转换 的 一 种 变形 ， 使 其 能 消除 
Fortran 程 序 中 所 有 后 向 分 支 。 虽 然 这 个 过 程 的 细节 超出 了 本 书 范围 ， 我 们 在 这 里 也 介绍 这 个 
过 程 的 基本 思想 。 

前 一 个 例子 中 的 关键 问题 在 于 语句 S; 的 控制 条 件 。 为 了 保证 转换 的 正确 ， 这 个 控制 条 件 
必须 反映 以 下 两 个 事实 : 

(1) 在 这 段 代码 第 一 次 执行 时 ，5$1 只 有 当 P 为 假 时 才 执 行 ; 

(2) 如 果 后 向 分 支 被 执行 ， 则 S: 总 是 被 执行 。 
因为 代码 的 第 一 遍 执 行 是 挑选 出 来 的 ， 所 以 ， 很 明显 需要 一 组 条 件 来 控制 一 个 隐 式 迭代 区 域 
的 第 一 遍 执 行 ， 并 且 需 要 另 一 组 条 件 来 控制 其 后 的 各 遍 执 行 。 解 决 这 个 问题 的 一 个 办 法 是 引 
入 一 个 后 向 分 支 控制 条 件 bb， 当 与 它 有 关 的 后 项 分 支 被 执行 时 ， 它 的 值 为 真 。 我 们 用 前 面 的 
例子 来 说 明 这 个 方法 : 

m=p 


bb = .FALSE. 
100 IF (.NOT.m.OR(m.AND.bb)) S, 


200 S: 


IF (Q) THEN 
bb = .TRUE. 
GOTO 100 

ENDIF 


只 有 当 后 向 分 支 被 执行 时 ， 后 向 分 支 变 量 bb 才 变 为 真 。5; 在 以 下 情况 下 总 是 被 执行 : 

(1) 前 向 分 支 未 被 执行 ， 此 时 m 为 .FALSE. 

(2) 后 向 分 支 被 执行 。 

如 果 前 向 分 支 未 被 执行 ， 无 论 bb 的 值 如 何 ， 第 一 个 条 件 满足 。 如 果 前 向 分 支 被 执行 ， 则 
bb 和 m 都 为 .TRUE. ， 使 控制 条 件 为 真 。 

总 体 上 讲 ， 有 两 条 路 径 可 以 从 程序 的 起 点 到 达 一 个 后 向 分 支 的 目标 语句 : 

(1) 从 前 面 的 语句 直接 执行 下 来 ， 在 这 种 情况 下 ， 它 的 执行 的 条 件 包 含 在 前 驱 的 当前 条 
件 中 。 

(2) 分 支 跳 转 绕 过 该 语句 ， 随 后 通过 后 向 分 支 又 跳 回 该 语句 ， 这 种 情况 下 ， 正 确 的 控制 
条 件 是 绕 过 它 的 分 支 条 件 和 返回 它 分 支 条 件 的 逻辑 与 。 

这 样 ， 如 果 在 目标 语句 y 之 前 的 当前 条 件 用 cc 表示 ， 前 向 分 支 条 件 如 果 用 m 表 示 ， 后 向 分 
析 条 件 用 bb 表示 ， 则 y 处 的 控制 条 件 应 为 


cc.OR.(m1.AND.bb) 


这 个 条 件 与 例子 中 给 出 的 条 件 是 一 致 的 。 


Allen 等 人 的 论文 [23] 接 下 来 讨论 如 何 处 理 跳 入 后 向 分 支 引起 的 隐 式 迭代 区 域 的 前 向 分 支 。 
并 且说 明 如 何 将 隐 式 迭代 区 域 转换 成 Fortran 90 的 WHILE 循环 。 但 是 ， 在 现代 程序 开发 实践 中 ， 
是 不 鼓励 使 用 G0T0 语 名 的， 尤其 是 因为 会 造成 隐 式 迭代 区 域 的 原因 。 而 且 ，Fortran 90 语 言 
括 WHILE 循 环 ， 这 样 就 消除 对 多 种 隐 式 克 代 结构 的 需求 。 由 于 这 些 原 因 ， 本 书 下 文中 假设 : 对 
于 编译 器 而 言 ， 程 序 中 控制 流 结构 仅 包括 显 式 循环 、 前 向 无 条 件 跳 转 或 前 向 条 件 分 支 。 这 个 
假设 明显 地 简化 了 编译 器 的 任务 。 
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72.6 完全 前 向 分 支 消除 

现在 ， 我 们 已 经 准备 好 介绍 一 种 完整 的 前 向 分 支 消除 算法 。 这 个 过 程 〈 图 7-3 给 出 详细 算 
法 ) 按照 输入 语句 列表 中 语句 的 出 现 顺序 处 理 语句 ， 同 时 维护 一 个 用 于 控制 当前 被 处 理 的 语 
句 的 当前 条 件 。 





procedure remove_branches(R, current) 
1/ R 是 即将 考虑 的 一 -组 庄 句 
1/ current 是 语 凶 列表 开始 处 的 当前 条 件 
for each RY: uf FER A XH RAIA WS do 
cond(S) :=“.FALSE.”; 
for each RASKI do relocate_branches()); 
for each R 中 语句 5$ do begin 
if S 是 分 支 的 目标 then 
current := Simplify (current l “.OR.” cond (S)); 


case statement_type(S) in 
begin // IF (P) GOTO 上 一 一 前 向 分 支 
令 m 是 编 详 问 牛 成 的 新 的 逻辑 变量 ， 初 始 化 为 true; 
插入 赋值 语句 “IF (current)m:=P” ; 
邻 5 表 示 标 号 L 处 的 语句 ; 
cond(S,) :=cond(S,) Il “OR.” Ilcurrentll “ .AND.m” 
current:=current li “. AND. .NOT.m” ; 
删除 语句 $; 
end 
begin // GOTO L 
$51 表示 标号 L 处 的 语句 ; 
cond(S,) :=cond(S,il “ .OR.” llcurrent; 
current := “.FALSE.” ; 
删除 诸多 5; 
end 
begin // DO 8 ENDD0 一 一 个 循环 
remove_branches(B, current); 
1 由 村 事先 执行 了 relocare_branches， 所 以 循环 之 后 的 当前 条 件 和 循环 之 前 一 样 
end 
begin // 除 continue 之 外 的 其 他 语句 
if $ 的 形式 是 “IF (P) S,” then 
用 “IF (current.AND.P) S;” 代 赫 这 条 语句 ; 
else 用 “IF (current) S” 代 替 这 条 语句 ; 
end 


end case 


end 


end remove_branches 





图 7-3 完全 前 向 分 支 删除 
处 理 每 条 语句 时 ， 根 据 语 名 的 类 型 ， 算 法 将 执行 如 下 步骤 : 
(1) 如 果 当 前 语句 是 一 个 分 支 语句 的 目标 语句 ， 当 前 条 件 必 须 以 简化 的 形式 计算 。 为 了 
做 到 这 一 点 ， 必 须 把 与 跳 到 目标 的 分 支 相关 的 条 件 和 从 语句 的 词典 序 前 驱 传 递 来 的 当前 条 件 
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合并 。 这 个 条 件 的 简化 算法 将 在 下 一 小 节 介 绍 。 然 后 ， 这 个 语句 的 处 理 转 到 下 面 的 第 二 步 。 
(2) 如 果 当 前 语句 是 除 DO，ENDDO 或 CONTINUE (这 几 种 语句 在 if 转换 保留 不 被 控制 ) 
外 的 任何 一 种 ， 当 前 条 件 (由 步骤 1 计算 所 得 ， 或 在 当前 语句 不 是 分 支 的 目标 语句 时 由 词典 序 
前 面 语句 继承 下 来 ) 应 和 当前 语句 的 控制 条 件 结 合 起 来 成 为 当前 语句 的 控制 条 件 。 如 果 当 前 
语句 没有 被 控制 ， 则 当前 条 件 成 为 它 的 控制 条 件 。 
(3) 如 果 当 前 语句 是 一 条 DO 语句 ， 首 先 对 循环 调用 relocate_branches 以 消除 它 可 能 包含 
的 任何 出 口 分 支 。 这 可 能 会 在 这 些 语句 应 当 被 当前 条 件 控制 的 循环 之 前 产生 一 些 语句 。 此 外 ， 
也 可 能 会 产生 一 些 新 的 语句 插 在 修改 后 的 循环 的 语句 表 中 。 这 个 分 支 删 除 的 过 程 应 该 对 在 分 
支 重 定位 之 后 出 现 的 循环 体 递归 地 执行 。 
(4) 如 果 当 前 语句 是 一 个 条 件 分 支 语 句 ， 算 法 把 当前 条 件 复制 两 份 。 编 译 器 产生 的 与 新 
条 件 相关 的 变量 连接 到 一 个 拷贝 的 开始 ， 其 结果 添加 到 与 分 支 目 标语 句 相 关 的 表 中 。 这 个 变 
量 的 “ 非 ” 连 接 到 当前 条 件 的 另 一 个 拷贝 的 开始 ， 成 为 程序 下 一 语句 的 当前 条 件 。 
(5) 如 果 当 前 语句 是 一 个 无 条 件 跳 转 语句 ， 当 前 条 件 添 加 到 跳 转 目标 语句 的 条 件 表 中 。 
下 一 语句 的 当前 条 件 被 设置 为 空 〈 假 )。 如 果 王 一 语句 不 是 分 支 的 目标 语句 ， 则 它 将 不 会 被 执 
336| 47 Hi. 
337 (6) 对 下 一 条 语句 继续 执行 步骤 1。 
这 个 过 程 的 正确 性 证 明 ， 可 由 图 7-1 中 前 向 分 支 删 除 算法 的 正确 性 证 明和 图 7-2 中 分 支 重 定 
位 算法 的 正确 性 证 明 加 上 对 递归 调用 的 简单 归纳 得 到 。 算 法 剩余 的 部 分 是 简化 的 过 程 ， 这 部 
分 在 下 一 小 节 讨 论 。 


7.2.7 化 简 

从 上 面 介绍 的 几 个 例子 中 , 我 们 可 以 看 出 语句 的 控制 条 件 的 化 简 是 if 转换 的 一 个 重要 方面 。 
仅仅 简单 地 运用 条 件 转 换算 法 的 结果 是 引入 复杂 的 、 腾 肿 的 控制 条 件 ， 而 且 这 些 控制 条 件 在 
运行 时 将 会 重复 地 被 计算 ， 所以， 在 编译 时 尽 可 能 地 简化 它们 是 非常 重要 的 。 但 可 惜 的 是 不 
难 证 明 ， 布 尔 化 简 是 一 个 NP 完全 问题 。 给 定 一 个 能 将 表达 式 化 为 最 简 形 式 的 布尔 化 简 过 程 ， 
一 个 一 般 的 布尔 表达 式 将 是 不 可 满足 的 ， 当 且 仅 当 这 个 表达 式 化 简 为 “ 假 "。 结 果 ， 可 满足 性 
可 归 约 为 化 简 ， 并且 我 们 知道 可 满足 性 问题 是 NP 完全 问题 。 也 容易 证 明 if 转 换 可 以 产生 任意 
的 表达 式 ， 所 以 ， 没 有 简便 的 方法 可 以 简化 转换 算法 的 输出 结果 。 

由 于 布尔 化 简 程 序 在 每 个 可 能 的 分 支 的 目标 语句 被 处 理 时 都 被 调用 ， 所 以 ， 效 率 是 一 个 
重要 的 因素 。 虽 然 通 常 的 程序 中 很 少 有 复杂 的 控制 琉 ， 但 即使 是 一 个 很 小 的 程序 (尤其 是 带 
有 Fortran 中 的 赋值 60T0 语 句 时 ) ， 也 可 能 会 有 足够 深 的 层次 造成 指数 级 的 化 简 时 间 复 杂 度 。 注 
意 ， 某 特定 语句 的 控制 表达 式 的 复杂 度 是 与 能 影响 这 个 语句 执行 的 分 支 的 数目 成 比例 的 。 

被 最 广泛 运用 的 化 简 程 序 是 Quine 和 McCluskey[230，208] 提 出 的 ， 它 包括 三 个 操作 步骤 : 

(1) 将 原来 的 逻辑 表达 式 简化 为 一 些小 项 的 “ 析 取 ”， 其 中 每 个 小 项 都 是 一 个 包括 原 表 达 
式 中 每 个 逻辑 变量 的 “ 合 取 ”， 逻 辑 变 量 在 表达 式 中 是 其 自身 或 是 取 “ 非 ”的 形式 。 

(2) 计算 一 组 基本 蕴含 项 ， 基 本 蕴含 项 表示 原 表 达 式 中 小 项 的 “ 析 取 ”， 但 是 不 被 其 他 殖 
含 项 包含 。 计 算 理 含 项 的 策略 是 合并 这 样 的 小 项 对 : 小 项 在 每 个 因 式 中 相同 ， 除 非 一 个 变量 
在 一 个 小 项 中 以 取 “ 非 ”的 形式 出 现 ， 而 在 另 一 个 小 项 中 以 不 取 “ 非 ”的 形式 出 现 。 

(3) 选择 基本 草 含 项 的 一 个 最 小 合法 子 集 。 一 个 子 集 “ 合 法 ”是 指 覆 盖 原 表达 式 。 也 就 

是 说 ， 基 本 蕴含 项 合法 选择 的 “ 析 取 ”为 真 ， 当 且 仅 当 原 布尔 表达 式 为 真 。 
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为 了 说 明 这 个 过 程 ， 我 们 介绍 一 个 例子 ， 在 本 节 我 们 将 一 直 使 用 这 个 例子 : 
DOI=1,N 
1 IF (P) GO TO 10 
2 ACI) = BCI) 
3 IF (Q) GO TO 20 
10 C(I) = 0 
20 ACI) = ACT) +C(T) 
ENDDO 
在 不 用 化 简 的 if 转换 之 后 ， 变 为 
DOI=1, N 
1 ml =P 
2 IF (.NOT.m1) ACI) = B(I) 
3 IF (.NOT.m1) m2 =Q 
10 IF ((.NOT.m2.AND..NOT.m1) .OR.m1) C(I) = 0 
20 IF (((.NOT.m2.AND..NOT.m1).OR.m1).OR.m2) A(I) = ACI) + C(I) 
ENDDO 
首先 ， 我 们 先 对 语句 20 应 用 Quine-McCluskey 过 程 。 第 一 步 将 它 的 控制 条 件 简 化 为 一 组 
小 项 : 
(7~m2 a aml) v (m2 A ml) v -m2 A ml) v (m2 a aml) 


为 了 找到 基本 蕴含 项 ， 我 们 继续 简化 各 项 。 第 二 和 第 三 小 项 (m2 Am1)V(am2Am1) 可 以 
简化 为 ml， 而 第 一 个 和 最 后 一 个 小 项 (wm2 人 m1)V (m2 Anm) 可 以 简化 为 -ml。 然 后 ， 这 
两 个 表达 式 可 以 简化 为 一 个 基本 剖 含 项 .TRUE. ， 这 代表 整个 表达 式 。 所 以 ， 语 句 20 的 控制 条 
件 为 空 。 运 用 类 似 的 过 程 可 以 将 语句 10 的 控制 条 件 简 化 为 一 对 基本 在 含 项 : 

(=-m2A-ml)v (m2AmD) vy (-m2Aml)= -m2v ml 

遗憾 的 是 ，Quine-McCluskey 算 法 相对 于 原 表 达 式 的 大 小 来 说 是 指数 级 的 ， 这 一 点 使 这 个 
算法 不 能 实际 运用 在 一 般 的 if 转 换 中 。 但 是 ， 我 们 可 以 通过 重 定义 符合 if 转 换 最 低 要 求 的 化 简 
问题 来 消除 算法 中 的 指数 特性 。 

如 果 牺 性 掉 一 些 表示 上 的 简化 ， 而 把 注意 力 集中 在 化 简 的 真正 原因 上 ， 即 决定 什么 时 候 
可 以 把 一 个 编译 器 生成 的 分 支 变 量 从 当前 的 控制 条 件 中 蓟 除 ， 就 可 以 得 到 一 个 更 快 的 算法 。 
我 们 仍然 用 刚才 的 例子 ， 来 说 明 其 中 的 区 别 。 用 Quine-McCluskey 算 法 化 简 语句 10 和 20 的 控制 
表达 式 ， 我 们 得 到 


DOI=1, N 
1 ml = P 
2 IF (.NOT.m1) ACI) = BCI) 
3 IF (.NOT.m1) m2 =Q 
10 IF (.NOT.m2 .OR.m1) C(I) = 0 
20 A(I) = ACI) + C(I) 
ENDDO 


这 里 ， 应 当 清 楚 语句 20 的 控制 条 件 的 化 简 比 语句 10 的 控制 条 件 的 化 简 重要 得 多 ， 因 为 化 
简 使 我 们 从 语句 20 的 控制 条 件 中 消除 变量 ， 而 对 于 语句 10 来 说 ， 仅 仅 是 对 于 同样 的 变量 得 到 
一 个 较为 简单 的 表达 式 。 如 果 我 们 不 对 语句 10 化 简 ， 我 们 将 得 到 一 个 略微 复杂 的 形式 : 
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DO I=1,N 
1 ml =P 
2 IF (.NOT.m1) ACT) = BCI) 
3 IF (.NOT.m1) m2 =Q 
10 IF (C(.NOT.m2.AND..NOT.m1).OR.m1) C(I) = 0 


20 ACI) = ACI) + C(I) 
ENDDO 

这 个 例子 的 重要 之 处 在 于 : 虽然 变量 m1 的 分 支 目 标 在 语句 10 达 到 ,但 直到 达到 m2 的 分 支 
目标 后 才 会 把 ml 从 语句 的 控制 条 件 中 化 简 掉 。 概 括 地 说 ， 我 们 只 能 以 与 算法 引入 逻辑 变量 的 
顺序 的 相反 顺序 把 这 些 逻 辑 分 支 变量 从 表达 式 中 化 简 掉 。 也 就 是 说 ， 最 新 引入 的 逻辑 变量 被 
最 先 化 简 掉 。 所 以 ， m1 直到 处 理 到 语句 20 (m2 的 分 支 目 标 ) 时 才能 被 删除 掉 。 那 时 ， 两 个 变 
量 都 会 通过 化 简 被 删除 掉 ， 结 果 语 句 是 不 被 控制 的 。 

以 上 的 讨论 给 出 一 个 使 化 简 程序 变 得 简单 的 好 方法 : 只 关心 化 简 中 最 近 被 引入 的 变量 。 
就 是 说 ， 化 简 程 序 应 集中 消除 最 后 引入 的 变量 ， 而 不 是 试图 化 简 给 定语 名 的 当前 条 件 中 所 有 
的 变量 。 采 用 这 个 化 简 的 形式 的 结果 将 使 上 一 个 例子 被 化 简 成 最 后 一 个 版 本 ; IP, A 
10 的 控制 条 件 变 得 更 为 复杂 ， 这 是 简化 整个 化 简 程序 付出 的 代价 。 主 要 的 区 别 在 于 : 简化 了 
的 算法 只 在 有 可 能 从 控制 条 件 中 消除 变量 从 而 消除 被 控制 语句 的 一 个 输入 时 ， 才 进行 化 简 。 
这 一 点 正 是 支持 if 转换 的 化 简 的 关键 任务 。 

有 了 以 上 的 观察 ， 现 在 可 以 给 出 一 个 快速 化 简 算 法 。 这 个 算法 将 把 条 件 都 维护 成 项 的 
“ 析 取 ”， 每 个 项 代表 因子 的 “ 合 取 ”， 其 中 一 个 因子 可 以 表示 变量 或 变量 的 “ 非 ”。 在 一 个 项 
中 ， 因 子 将 以 被 引入 次 序 的 相反 顺序 出 现 ， 因 此 ， 最 近 被 引入 的 因子 将 在 项 中 第 一 个 出 现 。 
最 近 被 引入 的 因子 称 为 关键 因子 ， 它 是 在 考虑 删除 其 他 任何 变量 之 前 ， 必 须 从 项 中 化 简 掉 的 
变量 。 

图 7-4 具 体 地 给 出 这 个 化 简 算法 ， 这 个 算法 是 假设 它 将 被 用 在 图 7-3 给 出 的 remove_branches 
过 程 中 。 记 住 过 程 remove_branches 是 以 语句 人 在 程序 中 的 出 现 顺序 来 处 理 语句 的 ， 并 且 维 护 一 
个 当前 条 件 ， 这 个 当前 条 件 是 用 于 控制 当前 语句 的 条 件 。 

这 个 化 简 程 序 只 在 遇 到 一 个 可 能 是 分 支 目 标的 语句 时 被 调用 。 它 必须 将 跳 转 到 这 个 目标 
的 分 支 语 句 的 条 件 集 合 和 从 语句 词典 序 的 前 驱 传 递 的 当前 条 件 合并 。 这 些 条 件 被 组 合成 一 组 
项 ， 每 一 个 项 包含 一 个 关键 因子 。 如 果 存 在 两 个 项 ， 两 个 项 的 关键 因子 包含 同样 的 变量 ， 那 
么 它们 一 定 符合 以 下 情况 : 除了 一 个 变量 在 一 个 项 中 以 不 取 “ 非 ”的 形式 出 现 ， 而 在 另 一 个 
项 中 以 取 “ 非 ”的 形式 出 现 而 外 ， 这 两 项 完全 相同 。( 为 了 看 出 这 点 ， 回 忆 两 项 代表 两 条 不 同 
的 路 径 ， 路 径 上 最 后 一 个 分 支 是 关键 因子 变量 代表 的 分 支 。 由 于 这 两 条 路 径 是 不 同 的 ， 所 以 
这 两 条 路 径 一 定 由 那个 分 支 转 向 不 同 的 方向 。) 如 果 找 到 了 这 样 一 对 项 ， 它 们 将 被 一 个 单独 的 
项 所 代 夫 ， 这 个 用 来 替换 它们 的 项 包含 原来 两 项 中 剥离 关键 因子 后 的 部 分 。 换 句 话 说， 关键 
因子 已 被 消除 。 在 新 项 中 的 第 一 个 因子 成 为 新 的 关键 因子 。 这 一 步 将 被 重复 直到 没有 两 项 的 
关键 因子 包含 相同 变量 为 止 。 这 时 ， 保 留 下 来 的 这 组 项 的 “ 析 取 ”就 是 新 的 当前 条 件 。 

为 了 更 具体 地 说 明 这 个 算法 ， 让 我 们 再 一 次 考虑 前 面 的 例子 。 在 语句 1 被 处 理 时 ， 当 前 条 
件 是 由 空 条 件 表示 的 .TRUE. 。 在 语句 1 处 理 完 之 后 ， 语 句 10 带 有 其 目标 表 的 条 件 “ml ， 而 当 
前 条 件 是 “.NOT.m1”。 在 语句 3 处 ， 条 件 


m2.AND. .NOT.ml 


被 加 在 语句 20 的 条 件 表 中 ， 并 且 
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.NOT.m2.AND. .NOT.ml 
成 为 新 的 当前 条 件 。 结 果 ， 当 处 理 语句 10 时 (调用 算法 中 的 语句 4)， 要 考虑 的 两 个 条 件 分 别 
是 当前 条 件 和 目标 条 件 ， 也 就 是 
“NOT.m2.AND. .NOT.ml” and “ml” 
以 这 两 个 条 件 的 “ 析 取 ”作为 新 的 当前 条 件 。 由 于 其 中 的 关键 变量 不 同 ， 所 以 不 能 进一步 化 
简 。 最 后 ， 处 理 到 语句 20 时 ， 用 以 下 三 个 项 : 
“m2.AND..NOT.m1,” “.NOT.m2.AND..NOT.m1,” and “ml” 
前 两 项 的 关键 因子 中 有 相同 的 项 ， 合 并 后 的 结果 为 
“ NOT.ml” and “ml” 
这 两 项 的 关键 因子 中 也 有 相同 的 变量 。 结 果 可 化 简 为 .TRUE. ， 这 正 是 我 们 想 要 的 结果 。 注 意 ， 
这 里 我 们 对 语句 10 的 条 件 没 有 化 简 。 
图 7-4 给 出 在 前 向 让 转换 过 程 中 使 用 的 简化 后 的 化 简 算法 。 


procedure Simplify(cond) 
1/ cond 是 各 个 项 的 “或 "， 每 项 都 有 一 个 关键 变量 
// seen 是 一 组 曾经 被 看 作 关键 变量 的 变量 
II sofar 是 已 经 加 入 输出 条 件 列表 的 一 组 项 
1/ worklist 是 在 当前 输出 条 件 中 正在 处 理 的 一 组 项 


seen :=@; sofar : = Ø; 
worklist : = cond 中 项 的 集合 ; 
while worklist + Ø do begin 
令 t 是 worklist 中 的 任 一 元 素 ; 
worklist : = worklist — {t}, 
kK 是! 的 关键 因子 中 的 变量 
while k € seen do begin 
从 sofar 中 取 k 的 对 应 项 g; 
sofar := sofar — {q}; 
1 := 从 g 中 剥 去 关键 因子 后 剩余 的 项 ; 
k:=! 起 始 处 关键 因子 中 的 变量 ; 
end 
sofar := sofar U {t}; 
seen :=seen U {k}; 
end 
return sofar 中 项 的 “或 ”; 
end Simplify 





图 7-4 化 简 


在 每 个 分 支 目 标 处 ， 这 个 算法 的 工作 量 和 当前 条 件 中 项 的 数目 成 比例 。 为 了 看 清 这 点 ， 
广 意 最 外 层 循环 对 当前 条 件 中 的 每 一 项 执行 一 次 。 内 层 循环 的 每 一 步 将 会 消除 当前 条 件 的 一 
项 ， 所 以 ， 整 个 算法 内 层 循环 的 迭代 总 数 是 受 原 当前 条 件 中 项 的 数目 限制 的 。 

请 注意 ， 当 前 条 件 的 项 的 数目 大 致 和 程序 中 通过 当前 点 的 控制 流 路 径 (在 控制 流 图 上 被 
这 个 点 切断 的 边 ) 的 数目 成 比例 。 如 果 我 们 只 对 前 向 分 支 做 if 转换 ， 这 个 数目 就 以 程序 中 语句 
数目 为 界 。 这 样 ， 对 于 前 向 分 支 来 说 ， 整 个 程序 的 化 简 的 总 体 代 价 不 会 比 DUN2) EZ, 这 里 N 
是 程序 中 语句 的 数目 。 


Ww 
N 
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7.2.8 和 迭代 依赖 
一 旦 一 个 程序 中 运用 了 条 件 转 换 ， 由 操作 语句 、 分 支 语 句 和 占 位 符 语句 造成 的 所 有 依赖 
都 会 表现 为 数据 依赖 。 但 是 这 些 语 名 不 是 造成 控制 依赖 的 全 部 。 和 迭代 语句 也 可 以 造成 控制 依 
赖 ， 如 下 面 的 例子 所 示 : 
20 00 1 = 1, 100 
40 L=2* I 
60 D0 J = 1，L 
80 A(I, J) = 0 
ENDDO 
ENDDO 
如 果 我 们 假设 迭代 语句 不 会 携带 任何 控制 依赖 、 这 个 例子 将 会 被 不 正确 地 向 量化 为 : 
20 DO I = 1, 100 
40 L=2*I 
ENDDO 
80 A(1:100, 1:L)= 0 
原来 例子 将 结果 数组 中 的 一 个 三 角形 区 域 中 的 元 素 变 为 0。 向 量化 后 的 例子 是 将 一 个 矩形 区 域 
内 的 元 素 变 为 0。 向 量化 后 的 结果 不 能 复制 由 外 层 循环 造成 的 可 变 的 边界 。 因 为 我 们 忽视 了 依 
赖 图 中 不 出 现 的 一 些 依赖 ， 所 以 这 个 边界 的 变化 也 被 忽视 了 。 要 找到 这 些 依赖 就 必须 注意 到 
这 样 一 个 概念 ; D0 语句 控制 着 一 些 特定 语句 的 执行 次 数 。 为 了 模型 化 这 个 概念 ， 我 们 引入 下 
RRA: 循环 中 的 每 条 语句 有 一 个 隐 式 的 迭代 范围 输入 ， 在 例子 中 我 们 把 它 表示 在 代码 中 语 
句 的 最 后 ， 并 用 括号 将 它 括 起 来 。 这 样 ， 
A(I, J) = 0 (irange2) 
表示 这 个 语句 被 迭代 范围 irange2 控 制 着 ，irange2 是 由 编译 器 产生 的 用 来 保存 第 二 层 循环 的 
KGW. 
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在 恰好 进入 循环 之 前 计算 ， 所 以 ， 对 迭代 范围 的 赋值 将 被 放 在 00 语 名 所 控制 的 循环 之 外 。 对 
于 像 朵 I1LE 循 环 这 样 的 条 件 循 环 来 说 ， 控 制 条 件 应 在 通过 循环 的 每 次 迭代 中 都 被 计算 ; 因此 ， 
WHILE 循环 的 赋值 应 放 在 循环 内 并 和 循环 内 的 语句 在 同一 层次 上 。 
运用 这 种 策略 ， 开 始 这 个 讨论 时 所 用 的 例子 将 被 转换 成 
20 irangel = (1, 100) 
DO I = irangel 
40 L = 2 I (irangel) 
60 irange2 = (1,L) (irangel) 
DO J = irange2 
80 ACI, J) = 0 Cirange2) 
ENDDO 
ENDOO 
在 决定 依赖 之 前 ， 编 译 器 应 当 运用 类 似 于 第 4 章 中 介绍 的 方法 前 向 替换 任何 常数 和 循环 无 
关 的 变量 。 这 样 ， 以 上 程序 将 被 简化 为 
20 DOI=1, 100 
40 L = 2* 1(1,100) 
60 DO J= 1, L (1,100) 





Rb SELB BI 


80 A(I,J) = 0 (1,L) (1,100) 
ENDDO 
ENDDO 


为 了 依赖 测试 的 目的 ， 常 数 输 入 将 被 忽视 ， 这 样 ， 图 7-5 给 出 上 例 中 的 依赖 模式 。 注 意 其 


中 由 第 一 层 循环 携带 的 反 依赖 的 存在 是 由 于 循环 语句 和 
赋值 语句 80 都 隐 式 地 使 用 内 层 人 循环 的 标量 上 界 。 
标准 的 向 量化 过 程 作用 于 这 个 依赖 图 ， 将 生成 代码 


20 DOI=1, 100 


40° L=2*I 
80 ACI, 1:L) = 0 
ENDDO 


其 中 内 层 循环 由 于 是 空 的 而 被 消除 。 
为 了 得 到 最 佳 的 性 能 ， 范 围 的 计算 应 当 移 到 尽 可 能 
多 的 循环 之 外 ， 并 尽 可 能 地 作 前 向 替换 。 我 们 用 下 面 的 
例子 来 说 明 这 个 问题 : 
10 READ 5, L, M 
DOI=1,L 
20 N= 2*I 
DOJ=1, M 
DOK=1, N 
30 ACI, J, K) = 0.0 
ENDDO 
ENDDO 
ENDDO 


转换 之 后 ， 代 码 变 为 


10 READ 5, L, M 
irangel = (1, L) 
DO I = irangel 
20 N=2% I (irangel) 
irange2 = (1,M) (irangel) 
DO J = irange2 
irange3 = (1, N) (irange2) 
DO K = irange3 
30 ACI, J, K) = 0.0 (irange3) 
ENDDO 
ENDDO 
ENDDO 


用 4.5.1 节 中 给 出 的 方法 进行 前 向 替换 后 ， 我 们 得 到 如 下 代码 : 


10 READ 5, L, M 
D0 I=1, L 
20 N=2*I (1,L) 
DO J = (1,M),(1,L) 
DO K = (1,N) (1,M)(1,L) 
30 A(T, J,K) = 0.0 (1,N) (1,M) (1,L) 
ENDDO 


图 7-5 选 代 依 赖 例子 
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ENDDO 
ENDDO 


本 例 的 依赖 图 在 图 7-6 中 给 出 。 
当 对 这 个 例子 应 用 向 量化 算计 后 ， 将 产生 
READ 5, L, M : 
D0 I = 1，L 
N=2* 1 
ACI, 1:4, 1:N) = 0.0 
ENDDO 


WHILE 循 环 中 的 迭代 依赖 可 进行 类 似 处 理 ， 但 循环 条 件 要 在 循环 
中 计算 。 例 如 : 
DOT=i1,L 
=J]* 2 
J=0 
DO WHILE (J.LT.M) 
J=J+]1 
ACI, J)= 0 
ENDDO 
ENDDO 


这 种 情况 的 变换 将 产生 


irangel = (1, L) 
DO I =irangel 
M= I * 2 (irangel) 
J = 0 (irangel) 
irange2 = (J.LT.M) (irangel) 
DO WHILE (irange2) 
irange2 = (J.LT.M) Cirange2) 
J = J + 1 (irange2) 
A(I,J) = 0 (irange2) 
ENDDO 
ENDDO 


由 于 条 件 irange2 在 内 层 循环 每 次 执行 时 都 要 重新 计算 ， 所 以 ， 如 果 不 做 进一步 的 修改 ， 
这 个 例子 就 不 可 能 进行 向 量化 。 为 了 将 内 层 WMHILE 循 环 转化 为 选 代 循环 ， 我 们 引入 编译 器 产生 
的 归纳 变量 jtemp: 
irangel =L 
DO I =irangel 
M= I * 2 (irangel) 
J = 0 (irangel) 
jirange2 = ( 0.LT.M) (irangel) 
DO jtemp = 1, nolimit WHILE (irange2) 
irange2 = ( J.LT.M) (irange2) 
J = J + 1 Cirange2) 
ACI, J) = 0 (irange2) 
ENDDO 
ENDDO 


347 接 下 来 ， 实 施 归纳 变量 替换 和 前 向 表达 式 合并 将 得 到 如 下 代码 : 





图 7-6 选 代 依赖 例子 
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DO I =1, L 
M= I * 2 (1,L) 
J= 0 (1,L) 


irange2 = ( 0.LT.M) (I,L) 
DO jtemp = 1, nolimit WHILE (irange2) 
irange2 = ((jtemp-1).LT.M) (irange2) 
ACI, jtemp~1) = 0 (irange2) 
ENDDO 
ENDDO 


现在 控制 内 县 循环 语句 的 irange2 只 是 简单 地 测试 了 (jtemp-1.LT. 攻 )， 它 可 以 被 并 入 循 
环 控制 条 件 ， 产 生 一 个 完整 的 迭代 循环 : 


DO I =1, L 
M= 1 * 2 (1,L) 
J=0 (1,L) 


irange2 = (1,M+1) (1,L) 
ACI, jtemp-1) = 0 (irange2) 
ENDDO 
ENDDO 


这 个 循环 版 本 可 以 在 第 二 维 被 向 量化 ， 产 生 
DOT =1, L 
M=I* 2 (1,L) 
ACT, 0:M) = 0 
ENDDO 
这 个 例子 除了 说 明 如 何 处 理 WHILE 循 环 中 的 选 代 依赖 外 ， 还 显示 利用 第 4 章 介 绍 的 变换 的 
变形 形式 将 WHILE 循环 转换 为 选 代 循 环 的 一 般 过 程 。 


7.2.9 if 重 构 
虽然 if 转 换 是 非常 有 用 的 变换 , 但 是 在 不 能 进行 向 量化 的 情况 下 , 它 对 性 能 有 负面 的 影响 。 
比如 考察 下 面 的 例子 : 


DO 100 I=1,N 
IF (ACI).GT.0) GOTO 100 
B(I) = ACI) *2.0 
ACI+1) = BCI) +1 
100 CONTINUE 
if 转换 之 后 ， 循 环 变 为 
DO 100 I =1, N 
ml = (A(1).GT.0) 
IF (.NOT.m1) BCI) = ACI) * 2.0 
IF (.NOT.m1) A(I+1) = BCI) +1 
100 CONTINUE 
由 于 一 个 依赖 环 的 存在 ， 这 个 循环 不 能 被 正确 地 向 量化 。 在 不 进行 变换 的 例子 中 ， 只 计 
算 一 次 条 件 。 根 据 这 次 计算 的 结果 ， 或 者 是 一 个 分 支 跳 转 被 执行 ， 或 者 是 两 个 赋值 语句 被 无 
条 件 地 执行 。 在 进行 变换 的 例子 中 ， 还 是 要 计算 一 个 条 件 ， 此 外 ， 在 每 个 赋值 语句 前 都 要 计 
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算 条 件 。 在 分 支 跳 转 不 被 执行 的 迭代 中 ， 变 换 后 的 例子 导致 每 个 赋值 语句 前 计算 条 件 的 额外 
开销 。 在 分 支 跳 转 被 执行 的 循环 迭代 中 ， 变换 后 的 代码 执行 一 系列 的 分 支 ， 而 原 代 码 只 执行 
一 次 。 这 就 是 说 ， 对 于 普通 的 机 器 (“普通 的 机 器 ”是 指 没有 条 件 执 行 但 有 条 件 跳 转 的 机 器 )， 
变换 后 的 例子 将 产生 与 下 面 循环 类 似 的 代码 : 
DO 100 I=1,N 
ml = (A(I) .GT.0) 
IF (m1) GOTO 10 
B(I) = ACI) * 2.0 
10 IF (m1) GOTO 20 
A(I+1) = B(I) +1 
20 CONTINUE 
100 CONTINUE 


由 于 控制 执行 引起 的 额外 开销 ，if 转 换 将 使 这 个 例子 的 性 能 变 差 。 为 了 避免 if 转 换 使 这 些 
没有 向 量化 的 循环 性 能 变 差 ， 我们 可 以 采用 称 为 条 件 重 构 的 逆转 换 过 程 。 简 单 地 说 ，if 重 构 就 
是 将 控制 执行 转换 为 一 系列 条 件 分 支 语句 。 

这 重 构 的 目标 使 将 各 部 分 被 控制 执行 的 代码 用 一 个 最 小 的 分 支 集 合 来 代替 ， 这 些 分 支 可 以 
显 式 地 控制 那些 代码 的 执行 。 如 果 一 个 未 被 向 量化 的 循环 输入 codegen 的 语句 顺序 和 输出 的 语 
名 顺序 相同 ， 那 么 重 构 一 组 效果 不 比 原来 差 的 分 支 语 句 是 相当 容易 的 。 但 是 ，codegen 经 常会 
改变 语句 的 顺序 。 而 且 ， 程 序 员 在 编码 时 也 不 总 是 使 用 最 少数 量 的 分 支 。 这 些 都 说 明 我 们 需 
要 一 个 更 加 智能 的 方法 来 决定 由 等 价 条 件 控制 的 代码 的 各 个 部 分 。 前 向 分 支 指令 的 处 理 很 简 
单 ， 只 需要 对 依赖 图 进行 一 次 简单 的 拓扑 序 遍 历 ， 尽 可 能 长 时 间 地 维护 控制 条 件 。 出 口 分 支 
具有 将 语句 紧密 地 锁定 在 一 个 依赖 环 中 的 属性 ， 所 以 ， 它 们 的 相关 区 域 容易 确定 。 但 是 ， 许 
多 可 以 用 向 量 硬 件 处 理 的 常见 的 依赖 环 也 写成 出 口 分 支 的 形式 〈 比 如 ， 在 一 个 条 件 向 量 中 搜 
索 第 一 个 和 最 后 一 个 为 真 的 元 素 )。 因 此 ， 重 构 过 程 的 一 个 重要 部 分 就 是 识别 这 些 依赖 环 并 把 
它们 转换 成 可 以 有 效 利 用 向 量 部 件 的 代码 。 这 种 依赖 环 的 识别 在 7.2.4 节 中 讨论 过 了 。 

虽然 ff 重 构 可 以 删除 大 部 分 由 if 转 换 引 入 的 低 效 的 部 分 ，if 转 换 、 布 尔 化 简 和 if 重 构 的 过 程 
在 没有 向 量化 情况 下 仍然 为 编译 器 引入 了 大 量 无 用 工作 。 而 且 ， 对 于 诸如 标量 扩展 这 样 的 变 
换 来 说 ， 一 些 形式 的 控制 依赖 还 是 需要 的 。 这 些 缺 点 使 另 一 种 替代 ift 转 换 的 方法 具有 吸引 力 。 
这 种 替代 方法 在 下 一 节 介 绍 。 


7.3 控制 依赖 

虽然 if 转换 巧妙 地 解决 了 存在 条 件 分 支 时 的 向 量化 问题 ， 但 它 也 有 一 些 不 希望 出 现 的 副 作 
用 ， 最 成 问题 的 是 它 不 必要 地 使 不 能 向 量化 的 代码 变 得 复杂 了 。 更 为 理想 的 解决 方法 是 先 分 
析 代码 确定 进行 向 量化 还 是 并 行 化 ， 然 后 只 在 需要 产生 并 行 代码 时 转化 匡 语句 。 但 不 幸 的 是 ， 
if 转换 过 程 中 无 法 做 到 这 一 点 ， 因 为 在 这 个 变换 之 后 ， 我 们 才能 确信 数据 依赖 是 否 刻画 了 为 了 
保证 正确 性 而 需要 的 所 有 限制 。 

在 本 节 中 ， 我 们 找到 一 种 不 同 的 方案 ， 这 种 方案 用 另 一 种 依赖 来 表示 控制 流 引 和 人 的 限制 ， 
这 种 依赖 称 为 控制 依赖 。 直 观 地 说 ， 如 果 依 赖 边 的 源 点 处 的 语句 是 分 支 语句 而 且 它 能 决定 依 
束 边 汇 点 处 的 语句 是 否 执行 ， 那 么 控制 依赖 就 存在 于 这 两 个 语句 之 间 。 在 本 六 剩余 的 部 分 ， 
我 们 将 形式 化 这 个 直观 的 定义 并 且说 明 这 种 依赖 如 何 运用 在 向 量化 和 并 行 化 的 过 程 中 。 

我 们 从 控制 依赖 的 具体 定义 开始 : 
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定义 7.1 如 果 (1) 存在 一 条 从 语句 x 到 语句 y 的 非 空 路 径 ， 使 得 在 这 条 路 径 上 的 每 
一 语句 zz# 加 被 语句 ?后 控制 ，(2) x 不 被 y 后 控制 ， 就 说 语句 y 控 制 依赖 于 另 一 语句 x。 


这 个 定义 的 直观 含义 是 x 必须 是 一 个 条 件 分 支 ， 这 样 分 支 转向 一 个 方向 时 y 必 然 被 执行 到 ， 
如 果 分 支 转向 另外 的 方向 ， 控 制 流 就 不 会 执行 到 y。 

因为 基本 块 是 具备 以 下 性 质 的 语 名 的 最 大 的 组 : 执行 组 中 所 有 语句 的 充分 必要 条 件 是 组 
中 的 任 一 条 语句 被 执行 ， 所 以 ， 为 了 方便 起 见 ， 我 们 将 控制 依赖 作为 基本 块 的 性 质 来 讨论 。 
在 基本 块 中 控制 流 是 没有 变化 的 ， 所 以 一 个 基本 块 中 的 每 条 语句 有 相同 的 控制 依赖 。 下 面 来 
看 图 7-7 中 的 例子 。 

在 这 个 图 中 ， 每 个 结 点 代表 一 个 基本 块 ， 每 条 边 代 表 一 个 可 能 的 控制 转移 。 每 个 结 点 处 
标 出 这 个 基本 块 控制 依赖 的 基本 块 的 集合 。 值 得 注意 的 是 块 4 和 块 5 都 不 依赖 于 块 1， 因 为 控制 
流 由 块 1 处 转向 它 的 某 个 后 继 并 不 能 决定 块 4 和 块 5 是 否 执行 。 而 且 ， 块 6 也 不 依赖 于 块 3， 因 为 
只 要 执行 到 块 3 就 会 执行 到 块 6。 

控制 依赖 图 (就 是 代表 基本 块 之 间 控 制 依赖 的 图 ) 可 能 比 它 相 应 的 控制 流 图 大 ， 如 图 7-8 
所 示 。 在 这 个 例子 中 ， 图 左边 的 每 个 结 点 都 控制 依赖 于 惟一 的 一 个 其 他 结 点 。 但 是 ， 图 右边 
的 每 一 个 结 点 都 控制 依赖 于 结 点 1 和 每 一 个 能 到 达 它 的 偶数 结 点 。 这 样 ， 包 含 22 + 2 个 结 点 的 
控制 依赖 图 中 的 控制 依赖 个 数 为 左 端 的 x 加 上 


图 7-7 控制 依赖 例子 图 7-8 控制 依赖 图 的 平方 级 增长 
Sa +1)= ae D +n 


2 


n(n+1) + 
2 
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或 者 说 有 O(n 个 控制 依赖 。 
7.3.1 构造 控制 依赖 


在 向 量化 过 程 中 运用 控制 依赖 图 之 前 ， 我 们 必须 先 构造 一 个 依赖 图 。 图 7-9 所 示 的 Cytron 
352| ”等 人 [97] 给 出 的 算法 ConstrucrCD 是 已 知 的 由 控制 流 图 构造 控制 依赖 图 通用 的 最 快 算法 。 












procedure ConstructCD(G, CD) 
1 G 是 输入 控制 流 图 
H CD(w) 是 x 所 控制 依赖 的 块 的 集合 
H ipostdom(x) 是 块 x+ 在 控制 流 图 G 中 的 直接 后 控制 结 点 


Ly: 为 控制 流 图 G 找 出 直接 后 控制 结 点 关系 ipostidom; (对 于 单 出 口 结 点 的 控制 流 图 来 说 ， 直 接 后 控制 结 点 
关系 构成 一 棵 树 ， 出 口 节 点 是 这 棵 树 的 根 结 点 。) 
令 ! 是 该 后 控制 结 点 树 的 拓扑 排 序列 表 ， 其 中 如 果 x 后 控制 y， 则 在 ! 中 x 在 y 之 后 ; 
Ly. while / + do begin 
x 是 /中 的 第 一 个 元 素 ; 
AAU IBR; 
Ly: for allx 的 控制 流 前 贱 y do 
证 ipostdom(y) + x then CD(x) = CD(x) U {y}; 














: for all z， 其 :Hipostdom(z)=x, do 
for all y € CD(z) do 
if ipostdom(y) +x then CD(x) =CD(x) U {y}; 






end 
end ConstructCD 






图 7-9 控制 依赖 的 构造 算法 


算法 ConstructCD 依 赖 于 后 控制 结 点 树 的 构造 。 


定义 7.2 ”在 只 有 一 个 出 口 结 点 的 有 向 图 G 中 ， 如 果 任 何 从 结 点 y 到 图 G 的 出 口 结 
点 的 路 径 都 经 过 结 点 x， 则 结 点 x 后 控制 结 点 y。 


图 7-10 包 含 图 7-7 所 示 控 制 流 图 的 后 控制 结 点 树 。 注 意 ， 每 个 结 点 都 被 出 口 结 点 7 后 控制 。 
计算 有 向 图 的 后 控制 结 点 的 问题 曾经 被 很 多 人 

研究 过 。Lengauer-Tarjan 算 法 [198] 是 广泛 应 用 的 算 ©) 

法 ， 它 在 最 坏 的 情况 下 的 时 间 复杂 度 为 O(Ea(N, E), 

其 中 NN 和 E 分 别 表示 控制 流 图 中 结 点 的 数量 和 边 的 数 G) Cs) 

量 ，a 表 示 和 Ackerman 函 数 的 反 函 数 相 关 的 一 个 增 

长 非常 慢 的 函数 。 事 实 上 ， 由 于 a 增长 非常 慢 ， 所 

以 在 实际 情况 下 ， 算 法 相对 于 输入 的 图 的 大 小 是 线 C+) 


性 的 。 最 近 ，Harel 发 表 的 算法 达到 线性 时 间 界 限 2) 
[138]。 我 们 推荐 把 图 4-8 中 给 出 的 迭代 算法 进行 修改 Cs) ( 


后 用 于 计算 后 控制 结 点 。Cooper，Harvey 和 Kennedy ， 





已 经 证 明 如 果 巧 妙 地 实现 集合 数据 结构 ， 这 个 算法 
对 于 实际 程序 中 的 控制 流 图 是 十 分 高 效 的 [84] 。 
正确 性 ”要 证 明 算 法 ConstructCD 能 正确 构造 控 图 7-10 图 7-7 的 后 控制 结 点 树 
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制 依赖 关系 ， 我 们 必须 证 明 : 在 算法 执行 之 后 ，y E CDG) 当 且 仅 当 x 控 制 依赖 于 y。 

注意 算法 处 理 结 点 的 先后 顺序 ， 是 同 后 控制 结 点 关系 一 致 的 。 这 就 保证 了 如 果 x 后 控制 z， 
则 z 将 在 处 理 x 之 前 被 处 理 。 这 样 ， 我 们 就 可 以 通过 归纳 证 明 ， 假 设 当 x 被 处 理 时 ， 这 个 性 质 对 
于 所 有 的 x 后 控制 的 结 点 成 立 。 这 个 证 明 的 剩余 部 分 留 给 读者 ， 如 习题 7.4。 

SRE ”如 果 不 考虑 后 控制 结 点 的 构造 ， 算 法 Construwc!CD 在 最 坏 的 情况 下 需要 O(max(N 
+E, ICD) 的 时 间 。 为 了 证 明 这 一 点 ， 注 意 到 按照 拓扑 排序 遍历 需要 OUV+ 刁 的 时 间 ， 而 在 
标号 /处 的 循环 头 对 控制 流 图 中 每 个 结 点 执行 一 次 ， 或 者 说 这 部 分 需要 O(N) 的 时 间 。 标 号 /3 
处 的 循环 对 每 个 结 点 的 每 个 控制 流 前 驱 执 行 一 次 ， 共 需要 O(E) 次 ， 由 于 这 个 循环 体 可 在 常数 
时 间 内 完成 ， 这 个 循环 需要 的 总 的 时 间 是 O(E)。 

在 标号 上 处 的 循环 更 复杂 一 些 ， 它 对 后 控制 结 点 树 上 的 每 条 边 执行 一 次 ,但 是 由 于 每 个 
结 点 只 有 一 个 后 控制 结 点 ， 这 个 循环 头 只 执行 O(N) 次 。 内 层 循环 最 多 对 控制 依赖 图 上 的 每 条 
边 执行 一 次 ， 所 以 循环 侯 套 需要 OlCDD 次 。 总 的 时 间 界 限 可 立即 推出 。 

由 于 这 个 时 间 界 限 是 算法 输入 和 输出 大 小 的 最 大 值 ， 所 以 没有 算法 可 以 比 它 性 能 更 好 。 


7.3.2 循环 中 的 控制 依赖 

虽然 标准 算法 可 以 通过 以 下 方法 处 理 循 环 ， 先 把 循环 转换 成 一 个 控制 流 图 ， 然 后 运用 算 
法 ConstructCD， 但 是 将 循环 作为 特例 来 处 理会 更 好 一 些 。 比 如 ， 有 时 我 们 需要 一 个 循环 控制 
结 点 ， 因 为 我 们 需要 把 一 些 循 环 迭 代 的 信息 附 在 上 面 。 这 个 结 点 还 可 以 在 各 种 变换 中 代表 这 
个 循环 ， 如 可 以 通过 克隆 这 个 循环 结 点 来 实现 循环 分 布 。 

在 这 里 的 讲述 中 ， 我 们 将 使 用 循环 控制 结 点 来 代表 循环 。 我们 可 以 把 这 个 结 点 看 成 是 在 
计算 循环 控制 表达 式 ， 进 而 决定 是 否 执行 下 一 次 迭代 。 回 题 立 即 出 现 : 程序 中 哪些 语句 是 控 
制 依赖 于 循环 控制 结 点 的 ? 回忆 一 下 ， 如 果 从 语句 3 出 来 的 一 个 分 支 会 导致 % 的 执行 而 另外 的 
分 支 不 会 导致 % 的 执行 ， 则 存在 一 个 从 3 到 3 的 控制 依赖 。 很 明显 ， 循 环 控制 结 点 会 导致 循环 
体 一 个 迭代 的 执行 ， 所 以 循环 中 不 控制 依赖 于 循环 中 其 他 语句 的 所 有 语句 都 是 控制 依赖 于 循 
环 控制 结 点 的 候选 者 。 一 般 来 说 ， 从 循环 控制 结 点 到 循环 中 当 循 环 体 执行 时 就 会 被 执行 的 每 
个 结 点 都 有 一 条 边 。 

下 面 的 例子 可 以 说 明 这 一 点 : 


10 DO I= 1, 100 
20 A(I) = ACI) + B(T) 
30 IF (A(I).GT.0) GOTO 50 


40 ACI) = -A(I) 
50 BCI) = A(I)+C(I) 
ENDDO 


这 个 循环 的 控制 依赖 图 在 图 7-11 中 给 出 。 请 句 30 到 语 旬 40 之 间 (o) (x) (2) 
的 控制 依赖 上 的 标号 f 是 用 来 说 明 这 个 语句 是 在 if 条 件 为 假 时 执 
行 。 我 们 注意 到 与 while 语 句 类 似 ， 循 环 控制 依赖 被 标注 为 真 ， ; 
这 表示 相关 的 while 条 件 为 真 。 因 此 ， 当 while 条 件 为 假 ， 语 名 


就 不 被 执行 。 
循环 控制 语句 的 特殊 之 处 是 它 建 立 了 一 组 可 以 被 执行 的 语 (0) 
句 实例 。 对 于 一 个 迭代 范围 国定 为 1 到 100 和 步 长 为 1 的 00 循 环 ， 
循环 控制 变量 可 以 被 认为 产生 循环 体 中 每 条 语句 的 100 个 实例 。 图 7-11 控制 依赖 例子 
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”这 些 语 名 实例 的 正确 执行 将 在 下 一 小 节 中 讨论 。 


7.3.3 控制 依赖 的 一 个 执行 模型 

在 下 面 几 段 中 , 我 们 将 证 明 涉及 到 控制 依赖 的 变换 是 正确 的 。 但 是 ,为 了 阐明 正确 性 问题 ， 
我 们 必须 首先 为 标 有 控制 依赖 和 数据 依赖 的 程序 建立 一 个 执行 模型 ， 并 且 必须 证 明 这 个 模型 
是 正确 的 。 我们 已 经 知道 数据 依赖 表示 语句 必须 按照 一 个 特定 顺序 执行 。 控 制 依赖 实质 上 也 
表明 同样 的 事情 ; 但 是 控制 依赖 更 复杂 一 些 ， 因 为 它 同 时 会 告诉 我 们 一 个 语句 是 否 会 执行 。 

回想 我 们 在 第 2 章 建立 的 一 个 模型 ， 这 个 模型 允许 我 们 在 不 颠倒 依赖 的 源 点 和 汇 点 的 情况 
下 重 排 语句 或 语句 实例 的 顺序 。 当 时 没有 控制 流 ， 只 有 语句 和 循环 。 因 此 我 们 可 以 把 程序 的 
执行 看 作 是 一 组 语句 实例 %D)， 每 一 条 语句 实例 都 带 有 包含 这 条 语句 的 循环 做 套 的 迭代 向 量 i 作 
为 索引 。 在 这 个 模型 中 ， 当 5(i) 所 依赖 的 每 个 语句 实例 都 被 执行 后 ，SGD) 就 可 以 执行 。 换 句 话 
Bi ARSO RAFS, HPI MLO 必须 在 SGD 之 前 执行 。 我 们 把 这 个 模型 看 作 是 这 样 
一 个 执行 模型 : 一 个 语句 可 以 在 它 依赖 的 所 有 语句 都 执行 过 之 后 的 任何 时 间 执行 。 

控制 依赖 引入 另外 一 种 可 能 性 : 5; 依赖 于 $1， 但 是 5 从 不 会 被 执行 。 在 上 面 的 执行 模型 中 ， 
5 也 不 会 被 执行 到 。 下 面 的 伪 码 可 以 说 明 这 种 情况 : 

DOI=1,N 
So IF (P) GOTO 100 
Si 
100 S: 
ENDDO 

在 分 支 跳 转 被 执行 的 选 代 中 ，Sz( 7) 不 会 等 待 Si( 了) 执行 之 后 才 执行 ， 因 为 51( 了 不 会 被 执行 。 
虽然 ， 这 个 依赖 在 其 他 迭代 中 是 真实 存在 的 ， 但 从 Si( DES 7) 的 路 径 在 那些 和 迭代 中 不 被 执 
行 ， 所 以 不 存在 依赖 

为 阐明 这 个 问题 ， 我 们 可 以 把 每 个 语句 实例 看 作 带 有 一 个 执行 变量 5).dotr。 不 控制 依赖 
于 其 他 语 名 实例 的 语句 实例 有 它们 自己 的 doi! 标 记 ， 初 始 化 为 真 。 所 有 其 他 语句 实例 的 doif 标 
记 初 始 化 为 假 。 于 是 ， 如 果 语句 实例 5S(1) 的 doir 标 记 被 设置 为 真 并 且 它 依赖 的 每 个 语句 实例 的 
doit 标 记 为 假 或 已 经 被 执行 过 ， 我 们 就 可 以 执行 这 个 语句 实例 。 

在 这 个 模型 中 ， 一 个 语句 的 doit 标 记 如 何 才能 设置 为 真 呢 ? 规则 
很 简单 : 对 于 所 有 控制 依赖 于 条 件 并 且 它 们 的 执行 由 条 件 决定 的 语句 ， (Cm ) 
它们 的 doit 标 记 被 设置 为 真 。 

这 一 点 促使 我 们 在 控制 执行 的 控制 依赖 上 标记 上 条 件 的 真 值 。 所 
有 那些 控制 依赖 于 一 个 条 件 并 且 当 条 件 为 真 时 才 会 执行 的 语句 ， 在 它 
们 的 控制 依赖 边 上 标记 为 真 ， 而 条 件 为 假 时 执行 的 语句 ， 在 它们 的 依 
赖 边 上 标记 为 假 。 这 样 前 面 例子 中 的 循环 体 的 依赖 图 如 图 7-12 所 示 。 © © 

我 们 观察 到 ， 如 果 一 个 给 定语 名 5 的 doit 标 记 被 设置 为 真 ， 那 么 存 
在 一 个 控制 语句 序列 9, 51,. SRS, SEH, So ARE ROBIE ICE 
名， 因而 在 原 程序 中 无 条 件 执行 ， 接 下 来 ， 对 于 每 个 0<k<m, 5 处 
决定 促使 Su ,的 执行 。 这 样 ， 控 制 依赖 序列 定义 惟一 一 条 在 原 程序 中 Cs.) 
必须 采取 的 执行 路 径 。 

在 这 个 执行 模型 中 有 待 说 明 的 是 如 何 定义 循环 控制 结 点 在 控制 依 图 7-12 控制 依赖 实例 
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赖 图 的 执行 中 的 行为 。 我 们 先 从 一 个 简单 的 循环 结 点 开始 ， 这 个 循环 结 点 不 包括 在 任何 由 它 
开始 的 循环 携带 的 控制 或 数据 依赖 环 中 。 在 这 种 情况 下 , 当 循 环 结 点 的 do 标记 被 设置 为 真 时 ， 
循环 的 迭代 范围 可 以 完全 计算 出 来 。 然 后 ， 循 环 头 的 执行 将 产生 一 组 语句 实例 ， 每 一 个 循环 
选 代 的 每 一 个 语句 对 应 一 个 语句 实例 。 然 后 ， 处 理 过 程 将 会 把 每 个 依赖 于 循环 头 语句 的 语句 
实例 的 doit 标 记 设置 为 真 。 在 这 一 步 ， 所 有 其 他 语句 的 doit 变 量 被 设置 为 假 。doit 标 记 为 真 的 
语句 实例 应 当 像 原 来 一 样 执行 。 

在 有 依赖 环 存在 的 情况 下 ， 和 迭代 范围 的 计算 依赖 于 循环 中 计算 出 的 量 ，D0 循 环 结 点 的 执 
行 更 复杂 一 些 。 如 果 迭 代 的 范围 不 为 空 ， 那 么 它 将 产生 一 个 其 本 身 的 新 的 语句 实例 来 调整 剩 
余 的 迭代。 如 果 反 向 依赖 于 00 结 点 的 依赖 是 数据 依赖 ， 则 给 这 个 00 结 点 一 个 为 真 的 doit 标 记 ， 
如 果 反 向 依赖 于 它 的 依赖 是 控制 依赖 ， 则 给 它 一 个 为 假 的 doit 标 记 。 于 是 ， 循 环 中 的 每 个 语句 
都 产生 语句 实例 ， 并 且 所 有 控制 依赖 于 循环 头 的 语句 的 doit 标 记 都 设置 为 真 ， 其 他 语句 的 标记 
都 设置 为 假 。 这 样 ， 执 行 就 能 正常 进行 。 

这 个 模型 的 正确 性 在 下 面 给 出 。 

定理 7.1 ”按照 本 节 给 出 的 执行 模型 执行 的 依赖 图 在 含义 上 等 价 于 创建 出 这 个 依 

赖 图 的 原 程序 。 

证 明 首先， 这 个 执行 模型 要 求 任何 语句 实例 不 能 在 它 所 依赖 的 语句 之 前 执行 。 

这 样 ， 我 们 仅 需 要 考虑 控制 依赖 引入 的 额外 的 复杂 性 。 这 个 证 明 的 本 质 是 要 证 明 在 

此 图 执行 模型 下 执行 的 依赖 图 精确 地 执行 了 与 原 程序 相间 的 语句 集合 。 为 了 证 明 这 

一 点 ， 我 们 必须 证 明 当 且 仅 当 一 条 语 名 在原 程序 中 执行 ， 它 在 图 中 的 dott 标 记 才 会 被 

设置 为 真 。 

假设 情况 相反 ， 一 些 语句 实例 Sio 得 到 错误 的 doit 标 记 。 那 么 存在 某 个 语句 实例 

序列 5o, Si, +s 5 ， 其 中 So 不 控制 依赖 于 任何 其 他 语句 《因而 必定 会 执行 )， 并 且 ，9o 

= Sio)。 而 且 ， 不 失 普 遍 性 ， 假 设 2 是 序列 中 第 一 个 得 到 错误 doix 标 记 的 语句 。 进 -一 

步 ， 不 失 普遍 性 ， 假 设 这 是 一 条 到 达 错 误 标 记 的 最 短 序列 。 因 此 ， 这 个 序列 就 代表 

一 系列 控制 判定 ， 它 表示 原 程序 中 一 条 到 达 5, = Slo) 的 执行 路 径 。 由 于 这 条 路 径 上 

除 最 后 一 个 在 3 -的 判定 外 ， 其 他 所 有 的 判定 都 是 相同 的 ， 因 此 我 们 必须 考虑 在 9 -， 

处 作 的 判定 。 由 于 所 有 数据 依赖 都 是 满足 的 ， 所 以 ， 在 这 条 路 径 上 ， -: 所 有 直接 或 

间接 依赖 的 语句 都 已 经 在 5, -1 这 个 判定 之 前 执行 过 了 ，、 它 们 的 doit 标 记 一 定 是 被 正确 

设置 的 ， 因 为 如 果 它 们 的 标记 不 正确 的 话 ， 将 会 产生 一 个 长 度 为 m -1 的 判定 序列 到 

达 另 一 个 doit 标 记 错 误 的 语句 ， 这 与 我 们 前 面 假设 长 度 为 m 的 路 径 是 到 达 错 误 标 记 语 

名 的 最 短路 径 矛 盾 。 ， 

同 理 ， 不 可 能 存在 原 程序 中 没有 执行 而 在 图 中 执行 并 影响 5,- :处 的 控制 判定 的 语 

句 ， 因 为 这 样 的 语句 的 标记 必然 是 错误 的 ， 且 到 达 它 的 判定 序列 也 一 定 比 m 短 ， 又 和 

假设 矛盾 。 所 以 ， 在 语句 9- ,处 的 判定 必然 和 原 程序 中 的 一 致 。 

这 个 证 明 可 以 不 加 修改 地 用 在 含有 D0 结 点 的 图 中 ， 因 为 上 面 证 明 中 的 语句 也 可 

以 是 语句 实例 。 


这 个 定理 给 出 一 个 工具 ， 它 能 建立 保持 数据 依赖 和 控制 依赖 正确 的 变换 。 此 外 ， 它 也 可 
以 作为 依赖 图 的 生成 代码 过 程 的 基础 。 
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7.3.4 控制 依赖 在 并 行 化 中 的 应 用 

在 具备 建立 控制 依赖 图 的 能 力 后 ， 下 一 个 问题 是 如 何 将 它 运用 到 并 行 代 码 生 成 中 去 。 更 
明确 地 说 ， 有 以 下 两 个 问题 需要 解决 : 

(1) 修改 代码 生成 中 采用 的 变换 ( 即 循环 分 布 、 循 环 合并 和 循环 交换 )， 用 于 处 理 控制 依 
赖 。 

(2) 把 抽象 的 语句 、 数 据 依赖 和 控制 依赖 转换 到 可 执行 的 代码 中 去 ( 换 句 话 说， 就 是 根 
据 控制 依赖 图 重新 构造 控制 流 )。 

下 面 几 段 讨 论 这 两 个 问题 。 

控制 依赖 和 变换 

在 检测 控制 依赖 时 ， 最 好 是 先 只 考虑 循环 无 关 控制 依赖 ， 也 就 是 说 ， 只 考 志 那些 循环 内 
由 于 前 向 分 支 造 成 的 依赖 。 后 向 分 支 造 成 的 隐 式 循环 ， 应 当 单 独 被 处 理 ;， 出 口 分 支 造 成 一 些 
复杂 的 循环 携带 依赖 、 这 一 点 在 7.2.4 节 中 讨论 过 。 为 简单 起 见 ， 本 节 只 讨论 由 前 向 分 支 造 成 
的 循环 无 关 控制 依赖 和 由 循环 造成 的 控制 依赖 。 

我 们 在 第 2 章 中 讲 到 ， 大 多 数 循环 变换 不 受 循环 无 关 依 赖 的 影响 ， 无 论 是 数据 依赖 还 是 控 
制 依赖 。 例 如 ， 循 环 反 转 不 会 影响 循环 无 关 依赖 。 同 样 地 ， 循 环 倾斜 、 循 环 分 段 、 索 引 集 分 
裂 和 循环 交换 也 不 会 影响 循环 无 关 依赖 。 两 种 会 影响 循环 无 关 依赖 的 循环 变换 是 循环 合并 和 
在 有 控制 依赖 时 的 循环 分 布 。 当 可 能 把 两 个 循环 间 的 循环 无 关 依 赖 转换 为 一 个 循环 内 的 循环 
携带 依赖 时 ， 循 环 合并 是 不 允许 的 。 但是， 如 果 出 口 分 支 被 排除 ， 就 不 可 能 有 这 种 控制 依赖 
(这 种 分 支 必须 跳出 一 个 循环 进入 另 一 个 循环 )。 这 样 ， 就 只 剩 下 循环 分 布 能 够 非法 地 影响 控 
制 依赖 。 如 果 一 个 循环 无 关 控制 依赖 的 源 点 和 汇 点 分 别 分 布 在 两 个 单独 的 循环 里 ， 循 环 无 关 
依赖 将 会 非法 地 成 为 循环 携带 的 依赖 。 例 如 ， 在 代码 

DOI=1, N 
$1 IF (A(I).LT.B(I)) GOTO 20 
S: B(I) = B(I) + C(I) 
20 CONTINUE 
ENDDO 
中 ， 惟 一 的 依赖 是 从 S: 到 S: 的 控制 依赖 。 将 这 两 条 语 名 分布 到 两 个 单独 的 循环 中 显然 是 错误 的 

DOI=1,N 

Si IF (A(I).LT.B(I)) GOTO 20 
ENDDO 
DOI=1,N 

Sz B(I) = BCI) + C(I) 
ENDDO 

20 CONTINUE 
因为 由 于 Si 在 某 个 迭代 中 执行 分 支 跳 转 而 简单 地 跳 过 $: 的 所 有 迭代 显然 是 不 正确 的 。 这 种 情形 
类 似 于 跨越 两 个 没有 进行 标量 的 循环 分 裂 一 个 标量 依赖 。 

到 目前 为 止 ， 所 有 的 代码 生成 算法 的 中 心 要 素 就 是 把 一 个 单个 循环 分 解 为 尽 可 能 小 粒度 
的 单元 ， 所 以 ， 要 想 成 功 地 把 控制 依赖 纳入 这 个 框架 ， 正 确 处 理 循环 分 布 是 非常 关键 的 。 

循环 分 布 可 以 被 看 作 是 将 循环 控制 语句 克隆 ， 并 把 原来 依赖 于 它 的 语句 分 成 两 组 ， 每 一 
个 新 循环 里 放 一 组 。 由 于 任何 与 依赖 环 有 关 的 语句 都 不 能 被 分 开放 到 这 两 个 组 中 ， 所 以 我 们 
有 明确 的 条 件 来 说 明 循环 分 布什 么 时 候 是 合法 的 。 其 中 难于 处 理 的 部 分 是 : 当 一 个 控制 依赖 
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跨越 分 布 后 的 两 个 循环 时 该 怎么 办 。 当 然 ， 也 可 以 克隆 条 件 语句 ， 但 这 样 做 是 有 风险 的 ， 因 
为 这 样 可 能 把 一 个 有 副作用 的 表达 式 计 算 两 次 。 这 里 我 们 真正 需要 的 是 某 种 机 制 ， 我 们 用 这 
种 机 制 可 以 以 某 种 可 以 在 不 同 的 数组 中 使 用 的 表示 方式 来 捕获 被 控制 语句 的 doit 标 记 。 换 句 话 
说 ， 由 于 可 能 存在 一 个 跨越 循环 分 布 后 的 两 个 小 循环 的 循环 无 关 控 制 依赖 ， 这 两 个 循环 一 个 
可 以 被 向 量化 ， 而 另 一 个 不 能 ， 所 以 我 们 需要 的 基本 变换 是 把 一 个 条 件 计算 的 结果 保存 到 需 
要 它 的 时 候 ， 这 和 标量 与 标量 扩展 的 关系 一 样 。 

这 就 给 出 一 种 类 似 于 if 转换 的 变换 ， 它 用 一 个 逻辑 数组 保存 条 件 表 达 式 计算 的 结果 ， 这 些 
结果 以 后 可 以 被 查询 到 。 比 如 ， 假 设 你 想 要 分 布 前 面 例子 中 的 循环 (事实 上 ， 你 更 可 能 不 想 
分 布 它 )， 得 到 的 正确 的 结果 是 


DOI=1,N 
Sı e(I) = A(I).LT.B(I) 
ENDDO 
DOI=1,N 
S2 IF (e(I).EQ..FALSE.) B(I) = B(I) + C(I) 
ENDDO 


这 里 进行 的 基本 变换 和 if 转换 是 类 似 的 ， 但 是 一 个 重要 的 区 别 是 怎样 运用 变换 。 在 循环 分 
布 过 程 中 ，if 转 换 是 无 条 件 地 把 所 有 的 控制 依赖 统一 转换 成 数据 依赖 。 而 这 里 的 转换 是 在 循环 
已 经 被 充分 分 布 并 重新 合并 后 ， 弥 补 那 些 被 变换 过 程 打破 的 控制 依赖 。 

图 7-13 是 一 个 更 为 复杂 的 例子 ， 我 们 用 它 来 说 明 存 在 控制 依赖 时 的 循环 分 布 的 问题 。 


DOI=1,N 
IF (A(I) .NE. 0) THEN 
IF (B (I) / ACI) .6T. 1) GOTO 4 
ENDIF 
ACI) = B(T) 
GOTO 8 
IF (A(I) .GT. T) THEN 


T= (BCI) - ACI)) + 了 
ELSE 
T= (T+ B(T)) - ACT) 
B(I) = A(T) 
ENDIF 
C(I) = BCI) + C(I) 
ENDDO 





图 7-13 一 个 存在 控制 依赖 的 循环 分 布 的 例子 


这 个 例子 的 控制 流 图 在 图 7-14 中 给 出 ， 相 应 的 控制 依赖 图 在 图 7-15 中 给 出 。 当 加 入 数据 依 
赖 时 〈 在 图 7-16 中 数据 依赖 用 虚线 稍 头 表示 )， 可 以 很 明显 地 把 它 再 划分 为 r 抉 。 

在 图 7-16 中 ， 虚 线 框 出 的 部 分 表示 先进 行 充分 的 循环 分 布 再 尽 可 能 把 类 似 区 域 合 并 后 的 
循环 结构 。 循 环 1 是 一 个 并 行 循环 ， 循 环 2 是 一 个 串 行 循环 ， 循 环 3 也 是 一 个 并 行 循环 。 为 了 保 
证 变换 的 正确 性 ， 跨 越 这 些 划 分 边界 的 控制 流 边 必须 转换 成 能 永久 的 形式 。 得 到 这 种 永久 性 
是 通过 构造 一 些 称 为 执行 变量 的 数组 ， 用 这 些 数 组 来 保存 在 跨越 循环 的 边 的 源 点 处 进行 的 分 
支 判定 。 上 面 的 例子 需要 两 个 执行 变量 : 用 来 保存 在 语句 2 处 的 分 支 结果 的 E2(I) 和 用 来 保存 
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在 语句 4 处 的 分 支 结果 的 E4(I)。 为 了 理解 执行 变量 可 能 具有 的 值 ， 让 我 们 来 考虑 在 这 两 个 语 
句 处 可 能 保存 的 结果 。 在 语句 2 处 ， 有 三 种 可 能 保存 的 结果 : 





图 7-14 图 7-13 的 控制 流 图 


(1) 语句 2 执行 ， 且 执行 到 语句 4 的 真 分 支 ， 

(2) 语句 2 执行 ， 且 执行 到 语句 3 的 假 分 支 ， 

(3) 语句 2 不 执行 ， 因 为 在 语句 1 处 执行 了 假 分 支 。 

这 三 种 情况 可 能 保存 在 任何 跨 循环 控制 依赖 的 源 
点 的 相应 语句 处 。 这 同 我 们 的 执行 模型 中 的 要 求 对 应 ， 
如 果 从 语句 8o 到 语句 S 有 一 个 控制 依赖 且 $o 的 doir 标 记 
已 经 设置 ， 那 么 以 上 三 种 情况 可 以 用 以 下 的 形式 来 保 
存 : doit 标 记 在 给 定 的 语句 8 处 被 设置 ， 且 条 件 表达 式 
的 值 被 标记 在 跳 转 到 5 的 分 支 上 ( 即 它 强 制 $ 的 执行 )。 

因此 ， 看 来 自然 可 以 模拟 这 些 情况 ， 用 执行 变量 
元 素 的 三 个 值 真 、 假 和 未 定义 (有 了 时 用 “TT ”表示 ) 
与 上 述 三 种 情况 对 应 。 当 确定 需要 某 些 执行 变量 时 ， 
这 些 执行 变量 首先 被 初始 化 为 T 。 然 后 ， 程 序 变 换 将 
在 代码 的 适当 位 置 设置 这 些 执 行 变量 。 图 7-17 中 的 算 
法 实现 这 样 的 转换 。 但 是 请 注意 ， 算 法 并 没有 产生 并 
行 代 码 ， 而 只 是 选择 性 地 把 控制 依赖 转化 成 数据 依赖 ， 
并 在 此 过 程 中 改变 某 些 语句 。 

正确 性 ”为 了 证 明 图 7-17 中 算法 DistributeCDG 是 
正确 的 ， 我 们 必须 证 明 它 产生 的 依赖 图 和 原来 的 依赖 
图 含义 是 一 样 的 。 这 一 点 可 以 从 定理 7.1 给 出 的 执行 模 
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图 7-16 图 7-13 的 数据 依赖 和 控制 依赖 图 


型 的 正确 性 证 明和 以 下 观察 中 直接 得 出 : 循环 分 布 之 后 的 新 图 中 某 语 句 的 doit 标 记 会 被 设置 ， 
当 且 仅 当 它 的 doit 标 记 在 原 程序 中 会 被 设置 。 我 们 观察 到 ， 证 明 这 一 点 惟一 的 问题 在 于 当 一 个 
控制 依赖 会 跨越 分 割 的 边界 时 出 现 的 问题 。 在 那 种 情况 下 ， 循 环 中 每 一 个 语句 实例 有 一 个 doit 
标记 。 由 于 两 个 循环 中 的 语句 实例 相同 ， 我 们 必须 证 明 执 行 变 量 数组 保存 由 跨 循环 控制 依赖 
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边 所 控制 的 语句 索引 的 正确 的 doif 标 记 。 


procedure DistributeCDG(G, Ga, P) 
// G 是 输入 的 控制 流 图 
1/ Goa 是 输入 的 控制 依赖 图 
HP={P,P;,..., Pi 是 表示 循环 在 分 布 之 后 的 一 组 分 割 
// 输 出 : 用 执行 变量 修改 后 的 Gc 
Li: for each 分 割 P do begin 
for each n E 已, 使 得 存在 一 条 边 ( o)l E Gua, 其 中 /是 控制 依赖 边 的 真 / 假 标 号 ， 使 得 o 锋 已 
do begin 
在 P 的 开始 处 插入 “EY (1)=T” ; 
test 是 n 的 分 支 条 件 ; 
if HEW, m) E Ga, 其 中 mE P; then 
FA “EV, (1) =sest” “IF (EV, (D). EQ.. TRUE)” ##fn; 
W/ 现在 ， 芳 虑 条 件 依赖 于 后 面 这 个 测试 
else 
. M “EV, (1)=test” 代 赫 n; 
for each 包 含 n 的 一 个 后 继 的 Pi, Pi P do begin 
构造 一 个 新 语句 N: 
“TF CEV, (1). EQ.TRUE.)” ; 
将 N 加 入 Pi; 
为 EVs 插 入 一 个 数据 依赖 ; 
for each (n, g);,， 使 得 qg E Pi, do begin 
/ 更 新 控制 依赖 
M Geah WERON, 9)5 
HEN, 9)wwe 加 入 Gea; 
end 
end 
end 
end 
复制 一 份 原始 的 00 结 点 ， 把 所 有 的 依赖 也 一 同 复制 ， 并 且 从 这 个 新 的 D0 结 点 到 Pi 中 每 条 语句 插入 
控制 依赖 边 ; 
end DistributeCDG 


图 7-17 执行 变量 和 控制 的 生成 


这 样 ， 我 们 的 目标 是 证 明 在 修改 后 的 程序 中 ，5 的 每 个 对 应 实例 的 doit 标 记 会 被 设置 ， 当 
且 仅 当 5 的 doit 标 记 在 原来 未 被 分 布 的 循环 中 被 设置 。 我 们 首先 注意 到 ， 这 两 个 循环 控制 语句 
有 相同 的 控制 前 驱 集合 ， 所 以 ， 如 果 原 来 的 循环 会 被 执行 到 ， 则 这 两 个 循环 也 会 被 执行 到 。 
而 且 ， 这 两 个 循环 产生 的 两 组 语句 实例 是 相同 的 。 

充分 性 : 假设 在 饮 代 ;中 ， 控 制 前 驱 3- 在 原 程序 中 执行 。 那 么 它 的 doit 标 记 会 被 设置 为 真 ， 
同时 ， 所 有 控制 后 继 ( 由 标号 控制 ) 的 doit 会 被 设置 为 和 控制 分 支 的 条 件 相同 的 值 。 在 转换 后 
的 图 中 ， 这 些 标号 保存 在 执行 变量 EV(i) 中 ， 并 传递 给 另 一 个 条 件 ， 这 个 条 件 是 在 给 被 控制 的 
语句 的 doit 标 记 设 置 值 之 前 测试 这 些 真 值 是 否 正 确 。 这 样 ， 语 名 5 的 doit 标 记 将 在 转换 后 的 程序 
中 被 正确 地 设置 。 

必要 性 : 如 果 控 制 前 驱 5. 在 原 程序 闪 代 i 中 不 执行 ， 执 行 变量 数组 元 素 EV(i) 将 会 被 置 为 
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“T“”， 并 且 在 转换 后 程序 的 第 二 个 循环 中 对 这 个 变量 的 比较 测试 将 会 产生 “ 假 ”的 结果 ， 这 就 
保证 这 个 测试 条 件 所 控制 的 语句 不 会 被 执行 。 另 一 方面 ， 如 果 在 计算 条 件 时 产生 错误 的 真 值 ， 
那么 在 另 一 个 循环 中 对 该 真 值 的 测试 将 会 失败 ， 相 应 语句 的 doit 标 记 不 会 被 设置 。 证 明 完毕 。 

将 算法 DistributeCDG 用 在 图 7-13 的 例子 中 并 且 配 以 适当 的 代码 生成 ， 得 到 的 结果 在 图 
7-18 中 给 出 。 “适当 的 代码 生成 ”将 是 下 面 一 段 的 主题 。 


PARALLEL DO I = 1, N 
E2(I) = T; 
IF (ACI) .NE. 0) THEN 
E2(1) = (BCI) / ACI).GT. 1) 
ENDIF 
IF (E2(I) .NE. .TRUE.) ACI) = B(I) 
ENDDO 
DOI=1,N 
E4(I) = T; 
IF (E2(I) .EQ. .TRUE.) THEN 
E4(I) = (ACI) .GT. T) 
IF (E4(1) .EQ. . TRUE.) THEN 
T= (BCI) -AI)) + T 
ELSE 
T= (T+ B(I)) - ACT) 
ENDIF 
ENDIF 
ENDDO 
PARALLEL DO I = 1, N 
IF (E4(1) .EQ. .FALSE.) THEN 
B(I) = A(T) 
ENDIF 
C(I) = B(I) + C(I) 
ENDDO 





图 7-18 图 7-13 在 循环 分 布 后 的 代码 例子 


生成 代码 

虽然 控制 依赖 图 可 以 表示 任何 的 控制 流 ， 但 是 真实 的 机 器 只 能 执行 非常 有 限 的 一 组 控制 
流 操 作 。 当 执行 了 循环 分 布 和 其 他 变换 后 ， 带 有 控制 依赖 的 依赖 图 就 不 能 很 明显 地 再 被 映射 
成 一 种 可 执行 的 形式 。 为 了 说 明 问题 可 能 的 困难 程度 ， 我 们 假设 目标 机 可 以 执行 Fortran 中 的 
控制 流 操作 ， 从 而 目标 语言 是 Fortran。 请 看 例子 


DO I= 1, N 
S; IF (pl) GOTO 3 
S2 
GOTO 4 
3 IF (p3) GOTO 5 
4 S4 
5 Ss 
ENDDO 


图 7-19 是 为 这 个 例子 构造 的 控制 依赖 图 ， 它 同时 也 显示 在 循环 分 布 和 合并 之 后 想 要 得 到 的 分 割 。 
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按照 图 7-19 中 给 出 的 分 割 进行 循环 分 布 所 产生 的 控制 依赖 图 在 图 7-20 中 给 出 。 结 点 1a 和 1b 
是 循环 分 布 算法 在 第 二 个 分 割 中 产生 的 两 个 新 结 点 ， 它 们 都 数据 依赖 于 结 点 1。 






图 7-19 示例 代码 段 的 控制 依赖 图 图 7-20 示例 代码 段 在 循环 分 布 之 后 的 控制 依赖 图 
当 两 个 分 割 的 代码 产生 之 后 ， 第 一 个 分 割 的 代码 成 为 
D0I=1,N 

E1(1) = pl 

IF(E1(I).£0. FALSE) THEN 

Se 

ENDIF 

Ss 
ENDDO 


第 二 个 分 割 的 代码 不 是 如 此 简单 。 语 句 4 控制 依赖 于 两 个 不 同 的 条 件 结 点 ， 所 以 它 不 能 不 
加 任何 变换 地 被 放 到 一 个 结构 化 的 条 件 语 名 中 去 。 解 决 这 个 问题 的 一 个 简单 的 方法 是 使 用 条 
件 变 换 的 一 种 变形 。 第 二 个 分 割 的 图 中 惟一 的 非 条 件 语 句 是 语句 4。 如 果 我 们 用 if 转换 时 的 方 
法 计算 出 它 所 依赖 的 条 件 集合 ， 我 们 就 能 得 到 如 下 代码 : 
DOI=1,N 
IF ((E1(I).EQ. .TRUE.).AND. .NOT.p3).OR. 
(E1(1).£0..FALSE.)) THEN 


Se 
ENDIF 
ENDDO 
但 是 ， 情 况 不 总 是 这 么 简单 。 下 面 考虑 同一 个 原始 循环 的 简单 变形 : 
DOI=1,N 
Sı IF (pl) GOTO 3 
S: 
GOTO 5 
3 IF (p3) THEN 
34 


GOTO 6 





250 £7 





上 面 循 环 在 循环 分 布 之 后 的 控制 依赖 图 在 图 7-21 中 给 出 ， 其 中 循环 分 布 是 按照 图 中 的 虚 
线 进行 的 。 进 一 步 假设 从 语句 $4 到 5s 存 在 一 个 数据 
依赖 。 这 个 例子 的 代码 生成 比较 困难 ， 因 为 我 们 
只 能 为 语句 $s 产生 一 个 结构 化 的 IF 语 句 而 不 能 为 语 
名 $s 也 生成 一 个 。 为 了 解决 这 个 问题 ， 我 们 使 用 条 
件 转换 的 变形 为 每 一 个 有 多 控制 依赖 前 驱 的 语句 
生成 一 个 IF 语 句 。 这 种 方法 得 到 的 代码 是 : 

DOI=1,N 

pla3 = (E1(1).EQ..TRUE.).AND. .NOT.p3 
IF (Pla3) S 
IF ( pla3.0R.(E1(I).EQ..FALSE.)) Ss 

ENDDO 

很 容易 看 到 ， 为 每 个 结 点 最 多 只 有 一 个 控制 依 
赖 前 驱 的 图 产生 代码 是 比较 容易 的 一 一 只 要 在 控制 
条 件 的 真 分 支 或 假 分 支 内 生成 每 条 语句 。 利 用 这 
个 观察 ， 带 控制 依赖 的 无 循环 依赖 图 的 一 般 代 码 
生成 算法 分 两 个 阶段 操作 。 第 一 个 阶段 把 控制 依 
赖 图 变换 成 一 个 含有 一 组 控制 依赖 树 的 规范 形式 ， 
这 个 形式 具有 以 下 性 质 : 

(1) 每 条 语句 最 多 控制 依赖 于 一 条 其 他 的 语句 〈 即 每 条 语句 至 多 是 一 棵 依赖 树 的 成 员 )。 

(2) 依赖 树 可 以 按 这 样 的 顺序 排序 ， 使 得 所 有 树 之 间 的 数据 依赖 都 从 该 序列 中 前 面 的 树 
中 流出 ， 并 流入 到 该 顺序 中 后 面 的 树 中 去 。 

在 第 二 个 阶段 ， 我 们 将 运用 简单 的 递归 过 程 为 这 组 规范 形式 的 依赖 树 产生 代码 。 

我 们 现在 开始 讨论 图 7-22 中 给 出 的 依赖 图 。 在 这 个 图 中 ， 实 线 边 代表 控制 依赖 ， 虚 线 边 
代表 数据 依赖 。 我 们 假设 所 有 发 出 控制 依赖 的 结 点 都 是 if 语句 ， 它 计算 某 个 谓词 ， 而 其 他 结 
点 都 是 简单 语句 。 每 个 结 点 上 的 标号 都 是 语句 的 编号 。 

图 7-22 中 有 几 件 事 是 明显 的 。 第 一 ， 语 句 3 和 7 有 多 个 控制 依赖 前 驱 。 这 些 结 点 必须 首先 
分 离 出 去 ， 依 次 形成 它们 的 树 。 想 要 的 结果 在 图 7-23 中 给 出 ， 图 中 产生 了 初始 化 语句 1a，5a， 
6a 和 8a， 它 们 分 别 用 来 保存 在 语句 1，5，6，8 中 计算 的 谓词 的 结果 。 使 用 这 个 策略 是 为 了 避 
免 重 复 谓词 计算 。 每 个 初始 化 赋值 都 在 等 式 左 侧 有 一 个 编译 器 生成 的 逻辑 变量 。 

新 结 点 “1I5&6” 和 “5&618” 是 用 来 控制 结 点 3 和 7 的 组 合 结 点 ， 结 点 3 和 7 先前 有 多 个 控 
制 依赖 前 驱 。 注 意 ， 没 有 语句 在 结 点 6 的 控制 之 下 ， 所 以 它 可 以 被 删除 。 另 一 方面 ， 结 点 5 不 
能 被 删除 ， 因 为 它 现在 包含 结 点 6 中 谓词 的 初始 化 语句 。 

下 一 步 是 看 这 些 依赖 树 是 否 能 被 线性 排序 。 由 于 从 语句 2 到 语句 3 和 从 语句 3 到 语句 4 的 数 
据 依赖 ， 这 个 例子 中 的 依赖 树 不 能 被 线性 排序 。 这 需要 进一步 分 裂 这 些 树 ， 为 语句 2 和 语句 4 
分 别 构造 依赖 树 。 这 样 做 的 结果 显示 在 图 7-24 中 ， 这 个 结果 就 是 想 要 的 规范 形式 。 现 在 可 以 
按照 与 数据 依赖 相同 的 顺序 1a，1，5a，5，1I5&6，1b，8a，5&&6l8，8 为 依赖 树 产生 代码 。 








图 7-21 示例 代码 段 的 控制 依赖 图 
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图 7-24 数据 依赖 分 裂 后 的 控制 依赖 图 示例 
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”剩余 的 一 个 问题 是 如 何 做 第 二 步 的 分 裂 ， 即 把 控制 语句 的 控制 依赖 后 继 组 织 成 条 件 相同 
的 语句 组 。 如 果 在 一 些 语句 之 间 设 有 这 样 的 依赖 路 径 : 路 径 经 过 的 语句 不 全 是 带 有 相同 标号 
的 相同 条 件 结 点 的 子 结 点 ， 那 么 这 些 语句 可 以 放 在 同一 组 里 。 从 这 个 描述 中 ， 容 易 看 出 这 个 
分 组 问题 是 一 个 带 类 型 的 合并 问题 ， 可 以 用 6.2.5 节 中 带 类 型 的 合并 问题 算法 来 解决 这 个 问题 ， 
只 要 把 每 条 语句 用 二 元 组 (p, !) 来 分 类 ， 其 中 p 是 语句 惟一 的 控制 依赖 前 哎 ，! 是 从 p 到 该 语句 
的 控制 依赖 边 上 的 标号 。 

控制 依赖 分 裂 的 代码 在 图 7-25 中 给 出 。 这 一 遍 完 成 之 后 ， 我 们 就 有 了 这 样 一 个 依赖 图 ， 
图 中 包含 一 组 排 好 序 的 依赖 树 ， 树 中 每 一 个 结 点 都 最 多 只 有 一 个 控制 依赖 前 驱 。 
procedure CDGsplit(G.., P) 


I Gca 是 输入 的 控制 依赖 图 
/ P 是 循环 体 中 的 语句 集合 


for each P 具 有 多 个 CDG 前 趋 中 的 结 点 v do begin 
令 {ch Cos vs Cm} 是 v 的 CDG 前 趋 的 集合 ; 
为 其 中 每 个 没有 初始 化 的 条 件 c, 构 造 一 个 初始 化 结 点 e， 并 且 揪 入 依赖 图 中 的 原始 谓词 层 ; 
如 果 不 存 在 w 结 点 ， 建 立 一 个 用 条 件 ciicsl..lcs 标 记 的 新 的 w 结 点 ， 否 则 令 w 为 构造 的 结 点 ， 作 为 最 远 
公共 祖先 的 子 结 点 ; 
从 每 个 e; 到 w 插 入 数据 依赖 边 ; 
将 v 作 为 w 的 控制 依赖 后 继 ; 


end 
删除 所 有 没有 后 继 的 条 件 结 点 〈 揭 代 地 删除 所 有 后 继 结 点 都 被 删除 的 结 点 ) ; 
for each 作 为 图 中 其 他 w 结 点 控制 依赖 后 继 的 结 点 v do 
把 v 的 类 型 设 为 (c。, jw) 其 中 ，c* 是 与 w 相 关 的 条 件 ， 心 是 w 和 v 之 各 的 边 的 标号 ; 
for each 不 同 的 类 型 ! do begin 
对 图 进行 类 型 的 带 类 型 合并 ; 
if Wr & + then 
WH — 7S GWE Bi — BT. ESSE RP OR, CB RS EP 
( FESR ERIN HY HE Ee i Be ) ; 
end 
end CDGsplit 





图 7-25 控制 依赖 分 裂 算法 


我 们 现在 可 以 使 用 简单 的 递归 过 程 生 成 代码 。 这 些 过 程 在 图 7-26 和 图 7-27 中 给 出 。 这 组 过 
程 按照 和 数据 依赖 一 致 的 顺序 为 组 成 控制 依赖 图 的 每 个 子 树 生成 代码 。 图 7-27 中 的 例 程 是 为 
数据 依赖 于 带 有 相同 标号 的 一 个 给 定 结 点 的 一 组 语句 生成 代码 。 由 于 在 规范 形式 中 每 条 语句 
只 有 一 个 控制 依赖 前 驱 ， 这 个 过 程 中 忽略 集合 的 控制 依赖 前 驱 并 且 只 为 集合 中 每 一 条 语句 递 
归 调 用 gencode。 

关于 这 个 代码 生成 算法 ， 我 们 仍 需 说 明 最 后 两 点 首先， 相对 于 原 依赖 图 的 大 小 来 说 ， 
这 个 代码 生成 过 程 的 运行 时 间 大 致 是 线性 的 ， 这 里 的 依赖 图 包括 数据 依赖 和 控制 依赖 。 算 法 
中 惟一 不 是 严格 线性 的 部 分 是 重复 地 应 用 带 类 型 的 合并 ， 这 部 分 所 用 的 时 间 和 分 裂 后 的 图 的 
大 小 (分裂 后 的 图 的 大 小 可 以 仅仅 比 原来 的 大 一 个 线性 的 系数 ) 与 不 同类 型 个 数 的 乘积 成 比 
例 。 通 过 只 与 多 个 语句 对 应 的 类 型 应 用 合并 的 方式 ， 可 以 减少 类 型 的 数目 。 
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procedure CDGgenCode(G,z, P) 
/ Ge 是 规范 形式 的 输入 控制 依赖 图 
/ P 是 循环 体 中 的 语句 集合 
令 S 是 P 中 没有 控制 依赖 前 趋 或 数据 依赖 前 趋 的 语句 的 集合 ; 
while S+ Ø do begin 
令 n 是 5 中 的 任 一 元 素 ; 
从 5 中 删除 n; 
gencode(n); 
将 没有 控制 依赖 前 趋 且 数据 依赖 前 趋 已 经 由 sencode 处 理 的 结 点 加 入 5; 
end 
end CDGgenCode 


procedure gencode(n) 
让 nn 是 IF(p) 的 形式 then begin 
令 T 是 语句 m 的 集合 ，(n, Miru E Goa; 
令 F 是 语句 m 的 集合 ，(n, Myre E Gea 
if T+ Ø then begin 


生成 “IF (p) then” ; 
genset(T, n); 
if F + Ø then begin 
He “ELSE” ; 
genset F, 1); 
end 
generate “ENDIF” ; 
end 
else if F * Ø then begin 
生成 “IF (NOT. p) THEN” ; 
genset(F, n); 
+e “ENDIF” ; 
end 
end 
else // n 不 是 一 个 条 件 
AE Bin; 


end gencode 





图 7-26 从 控制 依赖 图 生成 代码 


procedure genset(S, n) // 结构 化 代码 的 版 本 


1/ 依次 为 集合 5 中 的 每 条 语句 生成 代码 ， 共 中 控制 依赖 前 趋 n 被 忽略 
while 5 + Ø do begin 
令 m 是 8 中 这 样 一 个 任意 元 素 ， 它 的 所 有 数据 依赖 前 趋 的 代码 已 经 生成 ; 


从 5 中 删除 m; 


gencode(m); 


end 
end genset 





图 7-27 为 结构 化 代码 的 一 组 结 点 生成 代码 的 过 程 
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第 二 点 观察 是 ， 算 法 试图 执行 有 限制 的 if 转换 来 生成 代码 。 在 实现 这 个 意图 时 ， 我 们 必须 很 
小 心 ， 如 果 结 果 令 人 满意 ， 就 不 要 强制 执行 i 豆 # 换 。 这 说 明 在 分 裂 算 靶 中 ， 为 什么 我 们 必须 在 榨 
制 依赖 树 可 能 的 最 深层 次 构造 重复 结 点 。 当 我 们 生成 一 个 新 的 条 件 来 控制 一 个 先前 有 多 个 控制 
依赖 前 驱 的 结 点 时 ， 我 们 希望 把 它 构 造成 那些 控制 依赖 前 驱 的 公共 最 深 祖先 的 子 结 点 。 当 执行 
带 类 型 合并 时 ， 我 们 应 当 生 成 条 件 的 多 个 拷贝 ， 作 为 原 结 点 和 从 原 结 点 到 重复 结 点 的 路 径 上 的 
任意 结 点 的 最 近 公 共 祖 先 的 子 结 点 。 最 近 公 共 祖 先 可 以 通过 直接 修改 带 类 型 合并 算法 计算 得 到 。 

我 们 举 一 个 例子 来 说 明代 码 生 成 的 过 程 ， 以 下 是 这 个 过 程 为 图 7-24 中 的 控制 流 图 生成 的 
代码 的 概况 : 

pl = predl 

IF (predl) S$, 

p5 = pred5 

IF (p5) p6 = pred6 

IF (p1.0R.(p5.AND.p6)) S; 

IF (pl) S, 

p8 = pred& 

IF ((p5.AND.p6).0R.p8) S, 

IF (p8) THEN 


代码 中 用 斜体 字 表 示 的 pred 变 量 代 表 谓 词 表 达 式 。 每 个 表达 式 只 被 计算 一 次 。 注 意 ， 为 
了 简短 起 见 ， 在 只 有 一 条 语句 被 一 个 条 件 控制 的 地 方 使 用 了 简单 下 语句 。 
7.4 小 结 

本 章 介 绍 了 处 理 循 环 中 控制 流 的 两 种 不 同 的 方法 : 

(1) if 转 换 通 过 把 程序 的 语句 转换 成 带 控制 条 件 语句 的 形式 来 删除 所 有 分 支 语 句 ， 其 中 控 
制 条 件 反 映 语句 被 执行 时 实际 的 条 件 集合 。 如 果 控 制 条 件 被 看 作 是 输入 ， 这 个 方法 起 到 把 控 
制 依赖 转换 成 数据 依赖 的 作用 ， 使 得 可 以 直接 把 前 几 章 中 的 代码 生成 过 程 用 在 带 有 分 支 的 代 
码 当 中 。 这 种 转换 在 向 量化 编译 器 中 是 非常 有 效 的 。 

(2) 控制 依赖 是 由 控制 流 引 入 的 一 种 特殊 依赖 。 如 果 语 句 S 是 一 个 条 件 分 支 ， 并 且 So 处 的 
分 支 方向 决定 语句 的 执行 与 否 ， 则 语句 控制 依 赖 于 语句 ge。 控制 依赖 可 以 像 数 据 依赖 一 样 
用 在 分 析 算 法 中 。 但 是 ， 它 使 得 代码 生成 过 程 变 复杂 了 。 

为 有 条 件 分 支 的 程序 生成 代码 是 本 章 讨 论 的 主题 。 


7.5 实例 研究 

PFC 和 Ardent Titan 编 译 器 的 最 初版 本 都 使 用 了 系统 的 证 转换 来 处 理 循环 中 的 控制 依赖 。 
PFC 系统 实现 了 本 章 中 讨论 的 完整 的 if 转换 的 策略 ， 包 括 从 隐 式 循环 到 while 循 环 的 转换 。 但 是 
它 并 没有 取得 完全 的 成 功 。PFC 可 以 充分 地 向 量化 只 有 前 向 控制 流 且 控 制 流 只 限制 在 循环 范 
围 内 的 循环 。 在 其 他 情况 下 ， 这 种 方案 没有 很 大 作用 。 

随后 用 于 并 行 化 的 两 个 PFC 版 本 引入 了 前 面 介绍 的 这 重 构 和 执行 变量 的 方案 ， 尽 管 其 中 循 
环 分 布 没有 完全 按照 这 里 介绍 的 方案 实现 。 

if 转换 可 能 消耗 大 量 编译 时 间 。 首 先 ， 是 转换 本 身 的 代价 ， 在 7.2.7 节 中 介绍 的 快速 化 简 算 
法 就 是 一 次 失败 经 验 的 结果 ， 算 法 中 实现 的 Quine-McCluskey 过 程 是 指数 级 的 。 即 使 是 PFC 中 
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实现 了 的 if 转换， 速度 也 是 很 慢 的 。 此 外 ， 条 件 操 作 一 旦 被 向 量化 ， 就 需要 选择 执行 形式 (在 [376] 
有 掩 码 的 硬件 上 执行 或 将 操作 压缩 在 一 个 密集 的 向 量 上 )， 条 件 向 量 操作 很 容易 比 等 价 的 标量 
操作 运行 得 还 惕 ， 这 取决 于 实际 执行 了 多 少 个 元 素 。 而 且 ， 由 于 隐 式 地 建立 了 向 量 掩 码 ， 受 
控制 的 变量 和 数组 的 存 和 取 还 会 引起 内 存储 层次 结构 和 存储 方面 的 问题 。 

带 掩 码 的 向 量 操 作 不 总 是 向 量 机 上 简单 的 或 快速 的 方法 : 掩 码 硬件 的 确 使 得 掩 码 位 的 设 
置 和 检测 都 比较 容易 ， 但 是 一 般 都 不 支持 直接 操作 在 掩 码 上 的 存 、 取 操作 或 逻辑 操作 。 例 如 ， 
控制 Titan 向 量 部 件 的 掩 码 是 一 组 特殊 的 位 ， 任 何 指令 都 不 能 直接 访问 这 些 位 。 相 应 的 标志 向 
量 比 较 和 逻辑 操作 的 结果 可 以 设置 这 些 拓 码 位 ; 以 后 的 标志 向 量 操作 可 以 使 用 它们 。 为 了 把 
一 个 向 量 掩 码 保 存 到 内 存 中 ， 需 要 首先 做 一 个 带 条 件 的 向 量 移动 ， 把 一 个 全 “1” 向 量 移 到 一 
个 全 零 的 寄存 器 中 (这 样 那些 掩 码 位 为 真 的 对 应 位 的 1 就 移动 到 寄存 器 ) ， 然 后 再 把 这 个 寄存 
器 的 值 存 到 内 存 中 去 。 同 样 ， 从 内 存 中 恢复 一 个 向 量 掩 码 需 要 先 把 它 从 内 存 中 取出 ， 再 和 一 
个 全 “1” 的 向 量 进行 比较 。 一 旦 设置 掩 码 的 向 量 操 作 执 行 完 ， 这 个 掩 码 就 不 能 直接 被 其 他 逻 
辑 操作 重新 设置 ;代替 的 方法 是 必须 把 它 取 到 一 个 向 量 寄存 器 ， 然 后 在 其 上 进行 操作 。 结 果 
是 ， 控 制 变量 的 “与 ”或 “或 ”作为 向 量 操作 实现 的 代价 是 很 高 的 。 

基于 这 些 考 虑 ， 加 上 Titan 具 有 多 个 处 理 器 用 于 有 效 地 加 速 条 件 代 码 ，Ardent 编 译 器 所 执 
行 的 if 转 换 是 十 分 有 限 的 。 基 本 上 ， 只 有 结构 非常 好 的 IF-THEN-ELSE 诸 句 或 构成 结构 化 的 IF- 
THEN-ELSE 的 分 支 模式 才 被 转换 成 控制 条 件 的 形式 。 这 些 语 句 的 正确 伐 套 也 被 转换 了 ， 但 这 在 
Titan 中 证 明 是 无 用 的 ， 因 为 即使 被 很 好 地 向 量化 了 ， 一 旦 控制 条 件 表示 多 于 一 个 的 IF 条 件 ， 
结果 执行 起 来 就 比 标量 执行 还 慢 。 由 于 只 转换 了 结构 化 的 条 件 结构 ， 化 简 过 程 就 不 需要 了 ， 
而 且 if 重 构 也 就 不 重要 了 。 所 有 其 他 的 分 支 结构 ( 包 括 C 语 言 中 允许 的 跳 入 循环 的 跳 转 ) 将 由 
一 种 控制 依赖 的 变形 来 处 理 ， 这 将 在 第 12 章 介绍 。 


7.6， 历 史 评 述 与 参考 文献 

第 一 个 在 向 量 机 上 对 控制 流 变 化 的 处 理由 Towle 提 出 ， 他 的 处 理 方法 通过 维护 一 个 位 向 量 
的 守恒 集合 来 模拟 简单 的 控制 流 。 本 章 介绍 的 if 转换 和 布尔 化 简 方 案 是 Allen 等 [23] 提 出 的 ; 布 
尔 化 简 中 的 关键 结果 是 由 Warren 和 Kennedy 在 PFC 系统 中 建立 的 。Besaw[41] 在 Univac 向 量化 
编译 器 中 实现 了 用 类 似 布尔 化 简 器 的 if 转换 。 条 件 转换 的 有 限 形 式 是 很 多 向 量化 编译 器 中 条 件 
处 理 的 基础 [270，196]。 

控制 依赖 在 编译 器 方面 的 文献 中 有 很 长 的 历史 ， 但 是 它 在 程序 变换 领域 内 的 初步 运用 开 
始 于 Ferrante，Ottenstein 和 Warren 的 论文 [112]。 其 中 构造 算法 是 Cytron 等 [97] 提 出 的 。 

在 存在 控制 流 的 情况 下 分 布 循环 的 算法 由 Kennedy 和 McKinley[174，209] 提 出 ， 他 们 的 算 
法 是 对 Callahan 与 Kalem[{58] 和 Dietz[102] 的 早期 工作 的 改进 。Towle[259] 和 Baxter 与 Bauer[39] 
提出 了 在 向 量化 中 由 控制 依赖 的 一 种 形式 建立 条 件数 组 。 本章 介 绍 的 代码 生成 算法 基于 
Kennedy 和 McKinley[174，209] 的 算法 ,但 是 算法 能 生成 结构 化 的 代码 ， 并 克服 了 他 们 的 算法 
在 某 些 情况 下 可 能 产生 错误 代码 的 缺点 。 很 多 研究 者 触及 到 了 “ 重 构 ” 非 结构 化 代码 的 问题 ， 
包括 Ferrante，Mace 和 Simons[110，111]， 他 们 讨论 存在 控制 依赖 情况 下 的 循环 合并 、 死 代码 
删除 和 分 支 删 除 。 
习题 

7.1 为 图 7-28 中 的 控制 流 图 构造 控制 依赖 图 。 
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7.2 在 控制 依赖 存在 的 情况 下 ， 循 环 分 布 变换 使 用 执行 变量 ， 执 行 变量 可 以 取 真 、 假 和 未 
定义 三 个 值 之 一 。 为 什么 这 里 需要 三 个 值 而 不 仅仅 是 真 、 假 两 个 值 ? 给 出 一 个 为 了 保证 正确 
性 而 需要 未 定义 的 例子 。 

7.3 在 图 7-29 给 出 的 控制 依赖 图 中 ， 虚 线 区 域 表 示 循 环 分布 之 后 的 理想 区 域 。 给 出 把 语句 
分 布 在 两 个 循环 中 之 后 的 控制 依赖 图 ， 并 给 出 通过 7.3.4 节 中 “生成 代码 ”部 分 描述 的 过 程 将 


”生成 的 结果 循环 的 代码 。 





图 7-28 习题 7.1 的 控制 依赖 图 图 7-29 习题 7.3 的 控制 依赖 图 
7.4 证 明 图 7-9 中 的 ConstructCD 算 法 能 够 正确 地 构造 控制 依赖 关系 。 换 句 话 说 ， 在 算法 执 
行 之 后 ，y © CD(x) 当 且 仅 当 x 控制 依赖 于 y。 提 示 : 证 明 应 对 算法 中 处 理 结 点 的 顺序 采用 归纳 
法 ,这样 可 以 保证 在 结 点 x 在 被 处 理 之 前 ， 它 的 所 有 后 控制 结 点 都 被 处 理 过 了 。 








改进 寄存 器 的 使 用 


8.1 引言 
现代 计算 机 系统 的 性 能 越 来 越 取 决 于 其 存储 器 层次 结构 的 性 能 。 在 芯片 内 操作 的 速度 得 


到 极 大 提高 的 同时 ， 内 存 的 性 能 却 基本 上 保持 不 变 。 结 果 ， 以 处 理 器 周期 计算 的 访 存 时 延 持 


续 增加 。 要 使 机 器 的 性 能 跟 上 处 理 器 的 性 能 ， 就 必须 缩短 这 些 延 迟 。 

在 本 章 中 ， 我 们 将 讨论 通过 编译 变换 提高 存储 层次 结构 性 能 的 若干 方法 中 的 第 一 种 。 当 
前 使 用 的 每 一 种 计算 机 系统 都 有 某 种 处 理 器 寄存 器 集 。 在 RISC 结 构 上 ， 寄 存 器 特别 重要 ， 在 
这 种 结构 中 ， 除 了 取 数 和 存 数 ， 所 有 的 操作 都 要 求 操作 数 来 自 处 理 器 中 的 寄存 器 ， 并 且 把 所 
有 结果 写 人 寄存 器 。 

大 多 数 现 代 的 处 理 器 都 有 某 种 高 速 缓存 存储 器 ; 但 有 的 没有 。 没 有 高 速 缓存 的 机 器 包括 
向 量 处 理 器 和 Tera MTA 系 列 机 器 (其 中 每 一 个 线程 都 有 自己 的 寄存 器 集 )。 我 们 将 在 第 9 章 讨 
论 高 速 缓存 的 编译 器 管理 问题 。 


8.2 标量 寄存 器 分 配 

在 大 多 数 编译 器 课程 上 ， 学 生 被 告知 标量 寄存 器 分 配 的 问题 基本 上 已 用 寄存 器 着 色 技术 
解决 了 。 这 一 技术 由 Chaitin 和 他 在 IBM 研 究 院 的 同事 提出 [69，68]， 后 来 又 由 Stanford 大 学 的 
Chow 和 Hennessy[76] 以 及 Rice 大 学 的 Briggs 等 [45] 加 以 了 改进 。 

这 些 技术 试图 为 单个 “活跃 区 间 ”( 给 定 的 变量 在 其 中 活跃 的 程序 区 域 ) 中 每 个 标量 变量 
的 所 有 引用 分 配 一 个 寄存 器 。 为 此 ， 编 译 器 通常 执行 下 面 的 步 又 : 

(1) 确定 变量 的 活跃 区 间 并 给 每 一 活跃 区 间 一 个 惟一 的 名 字 。 

(2) 建立 干涉 图 表示 哪些 活跃 区 间 不 能 分 配 同一 寄存 器 。 

(3) 使 用 一 种 快速 的 启发 式 着 色 算法 尝试 为 得 到 的 干涉 图 着 色 ， 所 用 的 颜色 数 代表 可 用 
的 寄存 器 的 个 数 。 

(4) 如 果 着 色 失 败 ， 编 译 器 会 选择 至 少 一 个 活跃 区 间 ， 取 消 分 配给 它 的 寄存 器 ， 然 后 重 
复 步 又 3， 继 续 党 试 着 色 。 

就 作者 所 知道 的 RISC 处 理 器 而 言 ， 其 C 和 Fortran 的 编译 器 中 均 采用 了 这 种 方法 。 实 践 证 
明 ， 这 种 方法 是 十 分 有 效 的 。 对 于 大 多 数 小 的 例 行 程序 ， 使 用 这 种 方法 可 以 得 到 完美 的 分 配 ， 
U- TARA RAEN A PRR USA REI NEEE. 1H, 人 们 通常 认为 单 处 理 器 中 
寄存 器 使 用 的 效率 已 无 太 多 改进 的 余地 。 

然而 ， 这 些 常 规 的 技术 在 处 理 浮 点 寄存 器 方面 却 行 不 通 ， 这 类 寄存 器 通常 用 来 暂时 保存 
数组 变量 的 单个 元 素 。 你 可 以 把 浮 点 寄存 器 看 作 一 个 很 小 的 信息 窗口 ， 其 大 小 恰 等 于 数组 中 
的 一 个 字 。 为 了 得 到 最 高 的 性 能 ， 我 们 必须 在 这 个 窗口 移 到 另 一 个 元 素 之 前 ， 尽 可 能 多 地 使 
用 其 中 的 数据 ， 因 为 每 一 次 重用 窗口 中 的 元 素 就 会 减少 一 条 取 数 指令 的 执行 ， 而 取 数 指令 通 
常 需要 几 十 甚至 上 百 个 周期 。 





383 


258 P&E 


为 了 搞 清 楚 这 些 技 术 的 重要 性 ,我 们 举 一 个 简单 的 例子 ， 这 个 例子 可 以 看 作 和 矩阵 乘法 计 
算 的 一 个 抽象 : 
DO I=1，N 
DO J=1, M 
ACI) = ACI) + B(J) 
ENDDO 
ENDDO 


在 这 个 例子 未 被 广泛 理解 之 前 ， 几 乎 所 有 的 产品 编译 器 都 不 能 识别 出 A(I) 在 内 层 循环 中 可 以 
被 保留 在 一 个 寄存 器 中 ， 尽 管 很 容易 看 出 A(I) 的 地 址 在 那个 循环 中 没有 改变 。 不 能 识别 的 原 
因 在 于 单 处 理 器 的 编译 器 只 能 很 好 地 处 理 标 量变 量 的 寄存 器 分 配 一 一 数组 访问 会 被 作为 表达 
式 在 循环 的 每 一 次 迭代 中 求 值 。 尽 管 编译 器 可 以 使 用 强度 消减 来 识别 出 地 址 没有 改变 ， 但 是 
只 有 极 少 的 编译 器 会 扩展 强度 消减 以 消除 取 数 指令 。 
现在 考虑 把 前 面 的 例子 稍微 改变 一 下 : 
DO I=1, N 
T = ACI) 
DO J=1, M 
T= T + BC) 
ENDDO 
ACI) = T 
ENDDO 
这 个 版 本 在 执行 内 层 循环 的 操作 时 ， 用 一 个 标量 变量 暂时 存放 A(I) 的 值 。 所 有 使 用 图 着 色 寄 
存 器 分 配方 法 的 编译 器 都 能 正确 地 为 这 个 标量 变量 分 配 一 个 寄存 器 。 因 此 ， 第 二 个 循环 会 比 
第 一 个 循环 快 得 多 ， 尽 管 它们 看 上 去 只 有 表面 上 的 不 同 。 
这 一 观察 导致 一 种 叫做 标量 蔡 换 的 优化 方法 ， 这 种 方法 通过 将 数组 引用 转换 为 标量 引用 
来 提高 编译 器 基于 着 色 的 寄存 器 分 配器 的 效能 。 虽 然 标量 替换 是 作为 一 种 编译 优化 方法 提出 
的 ， 但 实际 上 可 被 理解 为 是 一 种 源 - 源 变换 。 
在 下 面 的 几 小 节 中 ， 我 们 将 介绍 多 种 提高 单 处 理 器 存储 层次 结构 性 能 的 源 - 源 变 换 方 法 ， 
以 及 实现 它们 的 算法 。 
8.2.1 面向 寄存 器 重用 的 数据 依赖 
到 目前 为 止 ， 本 书 重点 讨论 了 作为 重 排序 变换 的 安全 约束 的 数据 依赖 。 在 这 样 的 背景 中 ， 
依赖 是 一 种 必须 满足 的 操作 约束 ， 因 为 两 个 不 同 的 语句 实例 可 能 访问 同一 个 内 存单 元 。 就 这 
一 点 来 说 ， 程 序 的 依赖 越 少 越 好 ， 因 为 越 少 的 约束 意味 着 编译 器 有 更 大 的 空间 来 对 语句 重 排 
序 。 对 于 寄存 器 (和 数据 ) 的 重用 ， 我 们 将 以 另外 的 方式 来 利用 依赖 。 一 个 准确 的 数据 依赖 
代表 两 个 访问 同一 内 存单 元 的 不 同 的 语句 实例 。 因 此 依赖 就 可 以 被 看 成 指示 那些 经 常 被 重用 
的 存储 单元 ， 应 保存 在 存储 层次 结构 中 最 快 部 分 。 就 这 一 点 来 说 ， 一 个 程序 中 的 依赖 越 多 就 
越 好 ， 因 为 越 多 的 依赖 意味 着 越 多 的 重用 。 依 赖 的 两 种 不 同 的 用 法 使 其 适用 于 各 式 各 样 的 程 
序 的 优化 。 
为 了 和 弄 明白 在 寄存 器 分 配 中 是 怎样 使 用 数据 依赖 的 ， 我 们 考虑 各 种 不 同 的 数据 依赖 : 
。 丙 依赖 或 流 依赖 ， 表 明 值 在 源 点 被 计算 且 在 汇 点 被 使 用 。 如 果 这 个 值 能 一 直 保持 在 寄存 
器 中 ， 直 至 到 达 汇 点 ， 那 么 就 不 需要 从 内 存 中 读 取 。 同 样 地 ， 如 果 包 含 被 引用 单元 的 块 
一 直 留 在 高 速 缓存 中 ， 直 至 到 达 汇 点 ， 那 么 就 可 以 避免 高 速 缓存 不 命中 。 
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“ 反 依 赖 ， 其 中 变量 的 引用 是 在 对 其 赋值 之 前 ， 因 此 无 法 用 反 依 赖 来 改进 寄存 器 的 分 配 。 
但 是 ， 如 果 在 源 点 处 被 装 入 的 块 一 直 保 留 在 高 速 缓存 中 直至 汇 点 的 话 ， 则 可 以 避免 高 速 
缓存 不 命中 。 

“输出 依赖 ， 在 高 速 缓存 管理 中 也 可 能 是 有 用 的 ， 但 它 对 改进 寄存 器 使 用 有 特殊 的 用 途 。 
考虑 下 面 的 例子 : 


S, A(T) = 

S: =A(I) 

s, A(T) = 

其 中 在 $1 和 $s 之 间 有 一 个 输出 依赖 ， 在 5 和 5S; 之 间 有 一 个 真 依赖 。 这 个 真 依赖 允许 我 们 
消除 语句 5 中 的 一 个 取 数 ， 但 输出 依赖 告诉 我 们 A(I) 在 5z 中 使 用 以 后 其 值 不 再 使 用 ， 不 需要 
保存 。 

“为 了 达到 存储 层次 结构 的 目的 ,我 们 要 使 用 第 四 种 依赖 ， 称 为 输入 依赖 ,在 这 种 依赖 中 ， 

源 点 和 汇 点 使 用 同一 个 单元 。 


Si 三 A(T) 


S: = A(T) 

从 51 到 5 的 输入 依赖 不 会 导致 执行 约束 ， 却 会 提供 机 会 消除 第 二 个 引用 中 的 取 数 。 可 以 简 
单 地 修改 标准 的 依赖 测试 过 程 来 计算 输入 依赖 。 

回忆 一 下 ， 我 们 提 到 过 内 存 访 问 的 类 型 是 依赖 的 一 个 特性 ， 这 导致 上 面 列 出 的 重用 的 原 
理 。 然 而 ,依赖 还 有 一 个 特性 : 循环 携带 和 循环 无 关 。 这 个 特性 也 导致 在 下 一 小 节 中 讨论 的 
重用 的 原理 。 
8.2.2 循环 携带 和 循环 无 关 的 重用 

非常 明显 ， 循 环 无 关 依 赖 可 以 作为 对 值 的 重用 的 指南 。 例 如 循环 无 关 的 真 依赖 


S A(I) = 
Sz = A(T) 


可 以 重新 写 为 
S t= 
Ss è =t 


只 要 确切 地 知道 依赖 ， 且 两 条 语句 之 间 没 有 其 他 存 数 语句 。 对 第 二 种 形式 采用 通常 的 标量 寄 
存 器 分 配 就 可 以 了 。 同 样 ， 循 环 无 关 输 出 依赖 可 以 用 来 消除 不 必要 的 存 数 ， 循 环 无 关 答 入 依 
赖 可 以 用 来 回避 不 必要 的 取 数 。 

初 看 起 来 ， 循 环 携带 依赖 无 法 提供 这 样 一 种 明显 的 重用 机 制 。 然 而 仔细 研究 会 发 现 : A 
值 较 小 的 后 向 循环 携带 依赖 可 以 有 与 循环 无 关 依赖 相同 的 作用 。 例 如 

S2 = A(I) 

Sı A(I+1) = 
可 以 重新 写 为 

S =t 

Sı t= 
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同样 ， 一 个 好 的 标量 寄存 器 分 配器 应 该 能 正确 处 理 这 段 代 码 。 在 这 个 简单 的 检查 中 ， 循 环 携 
带 依赖 看 来 只 能 处 理 出 现在 源 点 〈 包 括 固 有 的 源 语 句 ) 之 前 的 汇 点 ， 否 则 在 下 一 次 迭代 中 计 
算 的 新 值 将 覆盖 所 需要 的 来 自前 次 多 代 的 值 。 然 而 ， 除 此 之 外 它 可 以 被 扩展 ， 如 后 面 几 小 节 
中 的 说 明 。 类 似 的 变换 对 输入 和 输出 依赖 也 同样 有 效 。 

如 果 循 环 携带 依赖 对 寄存 器 重用 有 用 ， 就 必须 使 用 一 些 约束 。 回 忆 一 下 ， 每 一 个 循环 携带 依 
赖 都 有 一 个 六 值 ， 这 个 国 值 正好 是 携带 此 依赖 的 循环 的 依赖 距离 。 如 果 这 个 阔 值 在 整个 循环 中 始 
终 是 常数 〈 即 它 在 每 一 次 迭代 中 都 是 相同 的 )， 就 说 它 是 一 致 的 。 具 有 一 致 瘟 值 的 循环 携带 依赖 称 
为 一 致 依赖 。 要 对 存储 管理 有 用 ， 一 个 携带 的 依赖 就 必须 是 一 致 依赖 。 实 际 上 ， 带 有 小 的 编译 时 
间 常 数 的 阔 值 的 循环 携带 依赖 是 消除 内 存 引 用 的 最 佳 候选 ， 因 为 他 们 需要 用 于 保存 依赖 源 点 和 汇 
点 之 间 的 值 的 寄存 器 最 少 。 注意 ， 循 环 无 关 依赖 若 要 对 内 存 管理 有 用 ， 也 必须 满足 一 致 性 要 求 。 


8.2.3 寄存 器 分 配 的 例子 
尽管 前 一 节 所 讲 的 原理 十 分 简单 ， 但 它们 在 实际 中 却 非常 有 用 。 下 面 的 求 和 归 约 循环 显 
示 这 些 原理 有 什么 样 的 用 处 : 
DO I=1, N 
DO J=1, M 
ACT)= A(I)+B(J) 
ENDDO 
ENDDO 


这 里 ， 我 们 发 现 从 循环 中 的 语句 到 其 自身 有 一 个 真 依赖 和 一 个 输出 依赖 ， 它 们 都 来 自 对 A(I) 
的 引用 ， 并 且 它们 两 个 都 由 -循环 携带 。 另 外 , 从 ，， 
该 语句 到 其 自身 有 一 个 反 依赖 ， 也 是 由 J- 循 环 携带 。 EN 


最 后 ， 由 于 对 B(9) 的 引用 引发 1- 循 环 携带 一 个 输入 一 
依赖 。 图 8-1 显 示 了 这 些 依赖 (和 
在 这 个 例子 中 ， 由 J- 循 环 携带 的 真 依赖 指出 ， 如 \ 4 
果 A(I) 能 够 一 直 保 存在 一 个 寄存 器 直到 下 一 次 循环 egpp0 È 
迭代 ， 就 可 以 省 去 一 个 取 数 操作 ， 而 输出 依赖 和 反 依 、” ENpoo 
赖 则 显示 在 每 一 次 迭代 中 最 初 的 取 数 和 存 数 操作 完全 图 8 1 带 依 问 的 归 约 例子 
可 以 移出 循环 。 f 
变换 之 后 的 循环 在 每 一 次 迭代 中 将 只 需要 为 B(J) 作 一 次 取 数 : 
D0 I=1，N 
T= A(I) ` 
DO J=1, M 
T=T + BJ) 
ENDDO 
A(I) =T 
ENDDO 
如 前 面 所 讲 的 ， 我 们 使 用 下 标 数组 变量 对 标量 的 赋值 来 表示 取 数 ， 因 为 大 多 数 标量 寄存 器 分 
配 过 程 会 将 所 有 的 标量 变量 放 到 寄存 器 中 ， 至 少 在 单一 子 程序 里 是 这 样 的 。 


8.3 标量 替换 
在 前 面 讨 论 过 的 简单 原理 的 基础 上 ， 这 一 节 讨 论 实施 标量 替换 的 算法 。 这 个 过 程 的 第 一 
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步 是 要 删除 依赖 图 中 的 那些 无 关 依 赖 ， 以 便 〈 剩 下 的 ) 每 一 个 依赖 都 能 够 用 来 精确 度量 内 存 
重用 的 收益 。 后 面 几 小 节 我 们 将 把 这 些 原理 加 以 扩展 ， 用 来 处 理 更 一 般 的 依赖 。 


8.3.1 依赖 图 前 枝 
在 本 节 中 ， 我 们 将 介绍 一 种 依赖 图 剪 枝 的 算法 ， 使 每 一 条 依赖 边 代 表 一 种 消除 取 数 或 存 
数 操作 的 可 能 。 用 下 面 的 代码 来 说 明 这 个 问题 : 


DOI=1,N 
S; A(I+1) = A(I-1) + B(I-1) 
Sz ACI) = ACI)+B(I) + B(I+1) 
ENDDO 


在 这 个 例子 中 的 A 和 8 的 依赖 模式 是 有 趣 的 。 对 语句 S: 中 A(I+1) 的 赋值 能 够 到 达 语 句 S: 中 的 
A(I) 的 使 用 ， 但 不 能 到 达 语 句 S: 中 A(I-1) 的 使 用 ， 
因为 它 会 被 语句 $s 中 的 赋值 覆盖 。$: 中 对 B(I+1) 的 引 
用 所 使 用 的 单元 在 后 面 一 次 迭代 的 5: 中 重用 , 在 第 三 si) xf BD 


DOI=1,N 










次 选 代 的 $1 中 再 次 重用 。 NN 
图 8-2 是 剪 枝 前 后 的 依赖 图 。 在 前 枝 后 留 下 的 边 。 S AD AC) + iD + Bc) 
用 实 线 表 示 。 虚 线 表 示 用 常规 测试 方法 产生 的 边 ， ~ —/ 
但 在 剪 枝 后 不 再 存在 。 ENDDO 
重要 的 是 要 注意 到 ， 在 被 剪 枝 的 图 中 每 一 个 引用 图 8-2 双核 的 作用 


最 多 只 有 一 个 前 驱 ， 且 每 一 条 边 代 表 省 去 一 次 准 在 的 
内 存 访 间 。 在 一 组 中 所 有 边 的 源 点 称 为 那个 组 的 母 点。 在 这 个 例子 中 的 三 个 母 点 分 别 是 两 个 赋 
值 语句 的 左 部 和 语句 $; 中 B(1+1) 的 引用 。 
如 果 我 们 把 所 有 与 母 点 有 关 的 引用 都 赋 给 一 个 惟一 的 临时 标量 ， 则 在 标量 替换 后 将 得 到 
下 面 的 代码 : 
tOA = A(0); tIAO = A(1); tB1 = B(0); tB2 = B(1) 
DOI=1,N 
S, tlAl = tOA + +81 
tB3 = B(I+1) 
Sz tOA = t1A0 + tB3 + tB2 
ACI) = toa; 
t1A0 = t1Al; tB1 = t82; tB2 = tB3 
ENDDO 
A(N + 1) = t1Al 
这 段 代码 在 主 循环 中 只 有 一 次 取 数 和 存 数 。 原 来 的 代码 中 却 有 5 次 使 用 引用 ， 因 为 剪 枝 后 的 依 
赖 图 中 的 三 条 边 ， 除 其 中 之 一 外 的 所 有 的 引用 都 被 消除 。 另 外 ， 由 于 从 A(I+1) 到 A(I) 的 输出 
依赖 使 得 A(I+1) 的 存 数 只 在 最 后 一 次 挝 代 之 后 才 是 必要 的 ， 所 以 消除 了 一 次 存 数 。 

为 了 对 图 8-2 描 绘 的 图 作 草 枝 ， 我 们 必须 消除 两 种 边 : 

(1) 不 代表 潜在 的 重用 的 流 依赖 边 和 输入 依赖 边 ， 因 为 源 点 所 产生 的 值 被 插入 的 对 同一 
单元 的 赋值 所 禾 盖 。 在 语句 $; 中 的 从 A(I+1) 到 A(1-1) 的 流 依赖 是 这 种 需要 删除 的 依赖 的 一 个 
例子 。 ' 

(2) 由 于 另外 的 引用 (通常 是 对 两 端点 都 有 依赖 的 母 点 ) 而 成 为 多 余 的 输入 依赖 边 。 语 
句 $: 中 的 B(1) 到 $1 中 的 B(I-1) 的 输入 依赖 是 第 二 种 需要 删除 依赖 的 例子 。 





262 ge 





注意 输出 依赖 和 反 依 赖 不 能 直接 导致 寄存 器 的 重用 ， 所 以 总 是 被 删除 。 

这 启示 我 们 提出 一 个 剪 枝 依赖 边 的 三 步 又 算法 。 

第 一 步 : 消除 被 覆盖 的 依赖 。 这 一 步 删 除 所 有 这 样 的 依赖 ， 在 其 两 端点 间 有 一 个 对 该 依 
赖 涉及 的 单元 的 存 数 操作 。 如 果 被 删除 的 依赖 是 流 依赖 ， 可 以 如 下 确定 一 个 覆盖 存储 的 操作 : 
从 依赖 的 源 点 到 赋值 有 一 个 输出 依赖 ， 而 从 赋值 到 依赖 的 汇 点 存在 一 个 流 依赖 。 


Sı A(I+1) = 

S: ACI) = 

S AD 
这 里 ， 从 5 到 5; 的 流 依赖 将 被 删除 。 

如 果 将 要 删除 的 依赖 是 一 个 被 循环 中 的 存 数 操作 所 覆盖 的 输入 依赖 ， 则 从 源 点 到 该 操作 
将 有 一 个 反 依赖 ， 而 从 该 操作 到 依赖 的 汇 点 有 一 个 流 依赖 。 


Sı ...= A(I+1) 

S: A(I)= 

S3 ... = A(I-1) 
这 里 ， 从 5 到 5; 的 输入 依赖 将 被 删除 。 

第 二 步 : 识别 母 点 。 在 这 一 步 中 ， 所 有 的 母 点 将 被 识别 出 来 。 在 剪 枝 后 的 依赖 图 中 ， 母 
点 是 带 有 至 少 一 个 从 它 到 循环 中 另 一 语句 的 流 依赖 的 赋值 引用 ， 或 者 是 这 样 一 个 使 用 引用 ， 
至 少 有 一 个 从 它 发 源 的 输入 依赖 而 且 没 有 输入 依赖 或 流 依赖 到 达 它 。 

第 三 步 : 查找 名 字 划 分 和 消除 输入 依赖 。 从 每 一 个 母 点 开始 ， 对 于 从 该 母 点 沿 流 依赖 或 
者 输入 依赖 可 以 到 达 母 点 的 每 一 个 引用 ， 我 们 将 它们 标记 为 那个 变量 的 名 字 划 分 的 一 部 分 。 
名 字 划 分 是 一 引用 集合 ， 这 些 引 用 可 以 用 对 单个 标量 变量 的 引用 来 替换 。 如 果 依 赖 源 点 不 是 
母 点 本 身 ， 则 可 以 消除 同一 名 字 划 分 中 的 两 个 元 素 之 间 的 任何 输入 依赖 。 

这 种 分 析 会 给 我 们 带 来 某 种 意 想不到 的 结果 : 如 果 我 们 把 每 一 次 引用 当 作 一 个 顶点 ， 把 
每 一 条 边 看 作 连 接 两 个 引用 ， 那 么 整个 查找 名 字 划 分 的 过 程 可 以 被 看 作 带 类 型 的 合并 问题 
(6.2.5 节 )。 在 这 一 形式 化 表述 中 ， 我 们 用 引用 中 的 数组 的 名 字 作为 类 型 ， 而 把 输出 依赖 和 反 
依赖 定义 为 坏 边 。 当 这 种 带 类 型 的 合并 算法 执行 时 ， 每 一 个 合并 的 结 点 代表 一 个 不 同 的 名 字 
划分 ， 被 添加 到 合并 结 点 的 初始 结 点 就 是 母 点 。 

在 这 个 框架 中 ， 另 外 还 有 两 个 复杂 的 问题 必须 处 理 。 首 先 ， 可 能 有 某 些 引用 是 在 循环 的 
依赖 环 中 。 注 意 ， 这 里 的 引用 和 语句 之 间 的 区 别 是 很 
重要 的 。 下 面 是 一 个 例子 : DOI~-1,N 


D01=1,N 
ACJ) = B(I) + C(I, J) 5 ACJ) = B(I) + C(1,J) 
C(I, J) = ACJ) + DCI) TN, 


ENDDO C(I,J) = ACJ) + DCL) 
在 这 个 例子 中 ， 带 类 型 的 合并 算法 不 会 访问 A(J)， 因 ENDDO 
为 它 位 于 图 8-3 中 所 示 的 一 个 依赖 环 中 。 

为 了 解决 这 个 问题 ， 我 们 注意 到 任何 这 样 的 环 中 图 8-3 依赖 环 中 的 引用 







6-! 


8! 
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DOI =1, N 
tA = B(1) + C(I, J) 
C(I, J) = tA + D(I) 
ENDDO 
ACJ) = tA 
由 于 对 自身 的 赋值 导致 的 输出 依赖 ， 最 后 的 赋值 可 以 被 移出 循环 。( 注 意 这 段 代 码 假定 V> 1.) 
如 果 A(J) 有 一 个 向 上 暴露 的 使 用 ， 则 需要 在 循环 前 插入 一 个 对 tA 的 赋值 。 
第 二 个 复杂 的 问题 是 可 能 出 现 不 一 致 的 依赖 。 对 于 一 个 代表 重用 的 依赖 来 说 ， 它 必定 是 
一 致 的 ， 因 为 在 循环 的 迭代 中 它 有 一 个 常数 的 闪 值 。 下 面 是 一 个 例子 ， 说 明 不 一 致 的 依赖 : 
DOI=1,N 
s A(2*I) = ACT) + B(I) 
ENDDO 
尽管 由 于 对 A 的 引用 而 造成 从 S 到 它 本 身 有 一 个 访 依赖 ， 这 个 阔 值 随 每 次 迭代 改变 ， 所 以 
这 个 依赖 是 不 一 致 的 ， 故 不 适 于 重用 。 在 上 面 带 类 型 合并 的 框架 结构 中 ， 不 一 致 的 依赖 可 以 
被 标记 为 坏 边 。 这 会 使 得 对 相同 数组 的 引用 间 的 任 一 不 一 致 依赖 强制 插入 一 个 取 数 和 一 个 存 
数 操作 。 同 样 ， 对 于 依赖 环 中 的 引用 ， 环 应 该 用 一 个 坏 边 打破 ， 以 强制 插入 取 数 和 存 数 。 以 
下 面 的 循环 为 例 : 
DOI=1, N 
S; ACI) = A(I-1) + BCI) 
S2 ACJ) = ACJ) + ACI) 
ENDDO 
这 里 ， 在 S: 中 对 A(I) 的 引用 可 以 用 一 个 标量 替换 ， 但 是 对 A(I-1) 的 引用 必须 进行 取 数 ， 
因为 我 们 必须 假定 对 A(J) 的 存 数 会 改变 A(I) 的 值 。 这 就 导致 下 面 的 代码 : 


DOI=1,N 
S: tAI = A(I-1) + B(I) 
ACI) = tAI 
Sz ACJ) = A(J) + tAI 
ENDDO 


这 段 代 码 可 以 通过 使 用 索引 集 分 裂 的 方法 作出 重大 改进 : 


tAI = A(0); tAd = A(J) 
JU = MAX(J-1, 0) 


DOT=1, JU 
Sı tAI = tAI + B(I); ACI) = tal 
S2 tAd = tAd + tAl 

ENDDO 


IF (J.GT.0.AND.J.LE.N) THEN 
tAI = tAl + BCI); ACI) = tAI 
tAd = tAI! can be forward-substituted 
tAd = tAd + tAI; tAI = tAJ 
ENDIF 
DOr=JU+2,N 
tAI = tAI + B(I); ACI) = tAI 
tAd = tAd + 七 AI 
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ENDDO 
A(J) = tad 
第 二 段 代码 在 每 一 次 迭代 中 要 比 原来 少 两 个 取 数 和 一 个 存 数 。 
名 字 划 分 是 标量 替换 的 基本 的 输入 。 不 过 ， 在 我 们 介绍 其 在 8.3.5 节 中 的 算法 之 前 ， 先 介 
绍 一 种 实际 的 改进 ， 克 服 现 有 标量 寄存 器 分 配方 法 的 一 些 局 限 性 。 


8.3.2 简单 替换 
我 们 现在 转向 讨论 标量 替换 的 一 般 过 程 。 我 们 从 一 个 剪 枝 后 的 依赖 图 开始 ， 这 种 图 在 前 
一 节 中 已 经 介绍 过 。 这 个 图 中 ， 每 一 个 真 依赖 或 者 输入 依赖 都 表示 恰好 消除 一 次 取 数 或 一 次 
存 数 操作 的 机 会 。 如 果 依 赖 是 循环 无 关 的 ， 那 么 用 对 生成 的 标量 的 引用 来 替换 第 二 个 引用 通 
常 是 没有 问题 的 。 例 如 ， 在 下 面 的 代码 中 ， 变 换 是 简单 的 : 
DOI=1,N 
A(I) = B(I) +€ 
X(I) = A(I)*Q 
ENDDO 
在 剪 枝 后 的 依赖 图 中 ， 从 循环 体 的 第 一 个 语句 到 第 二 个 语 铝 有 一 个 循环 无 关 的 依赖 。 在 
这 种 情况 下 ， 标 量 替 换 要 求 将 第 一 个 语句 的 计算 结果 保存 在 一 个 标量 t” 中， 插入 一 个 标量 到 
A(I) 的 复制 语句 ， 以 及 在 第 二 个 语句 中 把 对 A(I) 的 引用 替换 为 对 t 的 引用 ， 结 果 如 下 : 
DOI=1, N 
t= B(I)+C 
A(T) =t 
X(I) = t*Q 
ENDDO 
如 果 在 此 循环 中 t 被 分 配 到 一 个 寄存 器 ， 如 我 们 期 望 在 大 多 数 编译 器 中 看 到 的 那样 ， 那 么 每 一 
次 选 代 将 比 原来 少 一 次 取 数 。 
8.3.3 处 理 循环 携带 依赖 
这 个 一 般 的 过 程 适用 于 任何 依赖 或 者 跨 距 小 于 一 个 循环 选 代 的 一 组 依赖 一 一 在 这 组 依赖 
中 ， 第 一 个 和 最 后 一 个 语句 或 者 在 同一 个 选 代 中 ， 或 者 如 果 在 相 邻 的 两 个 迭代 中 ， 则 最 后 一 
个 语句 按 词 法 顺序 不 会 出 现在 这 组 的 第 一 个 语句 之 后 。 下 面 是 一 个 例子 : 
DOI=1,N 
ACI) = B(I-1) 
B(I) = ACI) + C(I) 
ENDDO 
通过 引入 两 个 标量 tA 和 tB， 并 在 循环 之 前 插入 tB 的 初始 化 ， 我 们 得 到 下 面 的 结果 : 
tB = B(0) 
DOI=1,N 
tA = tB 
A(I) = tA 
tB = tA + C(I) 
BCI) = tB 
ENDDO 


日 ”讨论 中 我 们 将 总 是 用 小 写字 母 的 标量 变量 (如 像 !) 表示 编译 器 引进 的 标量 变量 用 于 对 寄存 器 赋值 。 
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注意 一 个 好 的 标量 寄存 器 分 配器 会 将 标量 tA 和 tB 合 并 到 同一 个 寄存 器 。 然 而 ， 我 们 让 标量 编 
译 器 来 作 决 定 ， 因 为 这 个 问题 可 能 与 操作 的 时 序 相 关 ， 而 这 是 机 器 相关 的 ， 这 里 不 作 讨 论 。 


8.3.4 跨越 多 个 迭代 的 依赖 
如 果 生 成 的 依赖 跨越 一 个 或 多 个 完整 的 循环 迭代 ， 标 量 替 换 将 变 得 更 加 复杂 : 


po I=1,N 
ACI) = B(I-1) + B(I+1) 
ENDDO 


在 这 个 例子 中 ， 从 B(I+1) 到 8B(1-1) 有 一 个 输入 依赖 ， 因 为 一 次 迭代 中 对 B(1+1) 的 引用 和 后 两 
次 迭代 中 对 B(I-1) 的 引用 都 涉及 相同 的 内 存单 元 。 这 样 ， 依 赖 的 距离 就 是 两 个 迭代 。 

跨越 多 个 迭代 的 依赖 的 问题 在 于 消除 取 数 操作 需要 不 止 一 个 临时 变量 。 这 是 因为 在 任何 
特定 的 迭代 中 计算 出 来 的 值 需要 被 保存 在 寄存 器 中 ， 直 到 下 一 个 选 代 中 第 一 次 引用 此 相关 值 。 
当前 的 例子 跨越 了 两 个 选 代 ， 我 们 将 使 用 如 下 定义 的 三 个 不 同 的 临时 标量 : 

tl = B(I-1) 

t2 = B(I) 

t3 = B(I+1) 


这 些 关 系 可 以 认为 是 “循环 不 变 ” 的 ， 即 在 循环 的 每 一 次 迭代 中 都 成 立 。 现 在 我 们 可 以 考虑 
应 生成 什么 样 的 代码 来 消除 依赖 汇 点 中 的 取 数 操作 : 


tl = B(0) 
t2 = B(1) 
DOI=1,N 
t3 = B(I+1) 
ACI) = tl+t3 
tl = t2 
t2 = t3 
ENDDO 


8.3.5 删除 标量 拷贝 

当 这 段 代码 实现 减少 取 数 的 目标 时 ， 它 却 要 付出 代价 ， 那 就 是 引入 了 两 条 会 被 编译 器 转 
换 成 寄存 器 -寄存 器 拷贝 的 标量 拷贝 指令 。 尽 管 这 样 的 拷贝 代价 很 小 ， 但 仍 需 要 指令 发 射 梢 ， 
因而 会 造成 不 必要 的 性 能 下 降 。 因 为 这 些 拷贝 操作 实际 上 是 在 置换 机 器 寄存 器 中 的 值 ， 因 此 
我 们 可 以 通过 展开 置换 的 环 的 长 度 来 消除 对 拷贝 的 需要 ， 这 样 将 产生 下 面 的 代码 : 


tl = B(0) 

t2 = B(1) 

mN3 = MOD(N, 3) 

DO I = 1, mN3 
t3 = B(I+1) 
ACI) = t1+t3 
tl = t2 
t2 = t3 

ENDDO 

DO I = mN3+1, N, 3 
t3 = B(I+1) 
A(I) = tl+t3 
tl = B(I+2) 
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A(I+1) = t2+t1 


t2 = B(I+3) 
A(I+2) = t3+t2 
ENDDO 


第 一 个 循环 称 为 前 置 御 环 ， 它 保证 当 进 入 主 循环 时 ， 剩 下 的 迭代 次 数 是 3 的 倍数 ， 这 样 就 
不 需要 在 主 循 环 中 对 循环 结束 的 条 件 进行 特殊 的 测试 。 确 切 地 说 ， 前 置 循环 是 与 前 面 讨论 的 
简单 解决 方法 一 样 。 然 而 ， 现 在 在 前 置 循环 最 多 进行 两 次 迭代 后 就 会 进入 主 循环 ， 且 主 循 环 
不 需要 寄存 器 -寄存 器 的 拷贝 ， 以 及 较 少 的 循环 结束 条 件 测试 。 要 证 明 最 后 的 循环 可 以 计算 出 
所 需要 的 答案 是 很 容易 的 。 


8.3.6 缓解 寄存 器 压力 

理想 情况 下 ， 标 量 替 换 过 程 应 该 系统 地 应 用 于 循环 中 的 所 有 名 字 划 分 。 但 实际 上 ， 这 会 
产生 许多 标量 ， 竞 争 有 限 的 浮 点 寄存 器 。 这 种 过 载 是 大 多 数 标量 寄存 器 分 配器 无 法 处 理 的 。 
因此 ， 对 标量 替换 系统 来 说 ， 限 制 产 生 的 标量 的 个 数 少 于 可 用 的 标量 寄存 器 个 数 通 常 更 好 。 

为 此 ， 系 统 对 每 一 个 名 字 划 分 R 附 加 两 个 参数 : 

(1) 名 字 划 分 的 值 v(R): 等 于 用 对 寄存 器 常 驻 标量 的 引用 替换 R 中 的 每 一 个 引用 所 减少 的 


内 存 取 数 或 存 数 操作 的 个 数 。 
(2) 名 字 划 分 的 代价 c(R): 是 在 消除 R 中 的 引用 时 需要 用 来 存放 所 有 临时 标量 值 的 寄存 器 
的 个 数 。 


假定 可 用 的 寄存 器 的 个 数 是 mn， 我 们 需要 的 结果 是 引用 集 的 一 个 子 集 {Ri, Ro, Rs}， 满 足 
Yer) én 
且 使 得 可 被 消除 的 内 存 访问 的 总 数 


yer ) 


取 最 大 值 。 容 易 看 出 这 是 经 典 的 装 箱 问题 通称 背包 问题 的 一 个 实例 。 在 最 一 般 的 形式 下 ， 装 箱 
问题 是 NP 完 全 的 。 但 是 ，0- 1 青 包 问题 可 以 利用 图 8-4 所 示 的 动态 规划 算法 在 多 项 式 时 间 内 解决 。 


procedure Pack(v, c, M, n, L, m) 


Hv [1:MI 是 M 个 名 字 划 分 的 值 集 。 
Wc [1:M] 是 M 个 名 字 划 分 的 代价 集 。 
1/n 是 可 供 数 组 量 使 用 的 寄存 器 数目 。 


WL 1:m] 列 出 最 佳 装 箱 中 名 字 划 分 的 下 标 。 
1 BP {0:n,0:M] 是 一 个 概率 矩阵 , 其 中 


H BP [让 是 对 一 个 大 小 为 的 箱 仅 使 用 引用 集 1 到 /的 最 佳 可 能 装 箱 的 值 。 


for j :=0to M do begin BP [0, j} :=0; last{0, j] :=0 end 
for i: =1 to n do begin BP [i, 0] :=0; Jlast{i,0] :=0 end 


for j :=1 to M do begin 
for i :=1 to n do begin 
BP (i,j) :=BP [i, 7-1); lastļli, j} :=lastli, j- 1); 





图 8-4 寄存 器 压力 缓解 
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if i—c{j] > 0 then 
if BP [i,j— 1] < BP[i - cU), j| +v [j] then begin 
BP [i,j]: =BPli- cU], j] +y U); 
last [i, j) : =j; 
end 


end 


end 


/ 现在 打开 包含 的 索引 的 列表 并 存 入 l 中 


l:=last{n,M]; m:=0; isize:=M; 
while / + 0 do begin 
mi:=m+1; Llm] :=i; 
sizeleft := sizeleft — cll}; 
l: =last([sizeleft, l-1}; 
end 
end Pack 





图 8-4 ( 续 ) 


众所周知 ,这 个 过 程 需要 O(nM) TAR. Pit, 如果 这 太 耗 时 而 无 法 在 编译 器 中 实现 的 话 ， 
还 有 一 个 好 的 启发 式 算法 。 如 果 对 引用 和 集 按照 v(R)/c(R) 的 比值 结果 从 大 到 小 进行 排序 ， 我 们 可 
以 从 表 的 起 始 选择 元 素 直 到 寄存 器 用 光 为 止 。 在 实践 中 ， 这 种 启发 式 算法 非常 有 效 。 


8.3.7 标量 替换 算法 . 
我 们 现在 准备 介绍 一 种 简单 的 针对 不 包含 条 件 控制 流 的 循环 的 标量 替换 算法 (图 8-5 ~ [395 
图 8-9)。 这 种 算法 可 以 粗略 地 划分 为 下 面 五 个 步骤 : 396 


procedure ScalarReplace(L, G, n) 

1 LÆRTE A ZERREN E .- 
/ G 是 L 中 语句 间 的 增 广 的 依赖 图 。 
Af n 是 可 供 数组 量 使 用 的 寄存 器 数目 。 
对 依赖 图 作 带 类 型 的 合并 ， 同 时 将 输出 依赖 、 反 依赖 和 不 一 致 依赖 标记 为 坏 边 ， 产 生 一 组 名 字 划 分 P; 
使 用 装 箱 算法 选择 P 的 一 组 于 集 {p1, Po …, pm}, 在 使 用 不 超过 n 个 寄存 器 的 前 提 下 ， 最 大 化 减少 访 存 次 数 ; 
for i :=1 to m do begin 

if pæ — ^ AHH 57 then 

ScalarReplacePartition(p;, ki); 
else begin 


ScalarReplaceCyclicPartition(p;) ; 
ki:=1; 


end 
for each 循 环 中 不 一 致 依赖 8 do 
InsertMemoryRefs(8); 
end 
/K 是 标量 替换 引入 的 临时 变量 的 数目 
A Kk, ka, oo Ko 的 最 小 公 倍数 ; 
I 将 循环 展开 为 & 个 循环 体 以 销 除 标量 拷贝 
UnroliLoop(K); 
end ScalarReplace 





图 8-5 标量 替换 
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procedure ScalarReplacePartition(g, k) 
1 8 是 名 字 划 分 中 的 依赖 的 集合 。 


今 k 表 示 集 合 8 所 跨越 的 登 代 的 总 数 ; 
引入 惟一 的 临时 量 (ti, t2, .., tx); 


令 I 表 示 将 归 榜 换 的 循环 的 索引 变量 ; 
AR +) 表示 在 索引 I 的 位 置 上 下 标 I+ [的 组 中 的 引用 ; 
邻 等 Tg 中 下 标 引 用 中 加 到 I 上 的 最 大 的 值 ; 

/ 这 意味 着- K 十 1 是 最 小 的 加 数 


for each g 中 的 每 一 个 下 标 引 用 R(I +2) do begin 
用 ty 1 替换 该 下 标 引 用 ; 
这 该 引用 位 于 赋值 语句 左 部 then 
证 没有 到 循环 中 另 一 个 赋值 的 引用 的 输出 依赖 then 
在 含有 该 引用 的 语句 之 后 插 人 一 条 赋值 语句 “RGT+D=b-er 5 


else begin // 存在 输出 依赖 
令 RG+9) 为 输出 依赖 的 汇 点 引用 ; 
if g</ then 
for i:=q+1toldo 
在 循环 后 插入 赋值 语句 “RN+DD=ti-kr”; WN= 循 环 上 界 
end 


end 
令 ! 是 组 内 某 个 下 标 引 用 中 I 的 最 大 的 加 数 ， 该 引用 有 一 个 来 自 循环 的 流 依赖 ; 


for i:=1toj—k+ido 

在 循 坏 开始 前 插入 “t,= RO” | 
for i:=1 to k— 1 do 
在 循环 的 结束 前 插入 “t,=ty+i; 


end ScalarReplacePartition 
图 8-6 无 环 依赖 集 的 标量 替换 


procedure ScalarReplaceCyclicPartition(g) 
/8 是 名 字 划 分 中 的 依赖 的 集合 。 


if 涉及 g 的 引用 不 是 循环 不 变 的 then 
不 作 任何 替换 returny 

令 R 是 名 字 划 分 的 循环 不 变 的 引用 ; 

令 t 是 一 个 惟一 的 临时 变量 ; 


for each g 中 的 下 标 引 用 R do 用 t 赫 换 R; 

这 至 少 有 一 个 引用 是 位 于 赋值 语句 的 左 部 then 
在 该 循 坏 后 插入 “R=t”; 

if 循 坏 中 有 R 的 向 上 暴露 的 引用 then 
在 该 循环 前 插入 “t=R”; 


end ScalarReplaceCyclicPartition 





图 8-7 有 环 依赖 集 的 标量 替换 
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procedure /nsertMemoryRefs(5) 


MBEAN SCRA 
证 8 连接 一 个 循环 改变 的 名 字 划 分 和 一 个 循 坏 不 变 的 名 字 划 分 then 
begin // 使 用 索引 集 分 裂解 决 此 问题 
将 循环 划分 为 一 部 分 : 
a) MRO RATA AE Ae Ak (不 包含 该 亚 代 ) HRA RAI 
b) 包含 该 引用 的 世代 
c) ATUR IX ABAR LEAR: 
EAEI A TERE i 
end 
else ifiż {k {f -Mji tk Mithen begin 
HA — A EE AHIS AP TP RE 
令 R 是 循环 中 源 点 之 后 的 泡 点 的 名 字 划 分 中 最 早 的 引用 ; 
如 果 在 该 引用 前 没有 对 及 的 临时 变量 的 取 数 操作 ， 则 插入 一 个 这 样 的 操作 ; 
end 
else 证 该 依赖 是 - -个 输入 依赖 then begin 
令 R 是 当前 源 点 引用 之 后 的 第 一 个 对 汇 点 的 引用 ; 
令 R 是 R 乙 前 的 最 后 一 个 对 源 点 的 引用 ; 
如 果 不 宛 余 的 话 ， 在 Ri 后 插入 一 个 从 RI 的 临时 变量 到 R, 的 存 数 操作 ; 
如 果 不 郊 余 的 话 ， 在 Rs 后 插入 一 个 从 Rs 到 R, 的 临时 变量 的 取 数 操作 ; 
end 
end /nsertMemoryRefs 





图 8-8 为 不 一 致 依赖 插入 存储 引用 





procedure UnrollLoop(K) 
/天 是 展开 因子 
将 循环 分 侈 为 商 个 循环 ， 一 个 是 前 置 循环 
DOI=1, MODAN, K) 
以 及 一 个 主 循环 
DOI=MOD(N, KR+1,N; 


消除 主 循环 中 所 有 的 寄存 器 到 寄存 器 的 拷贝 ; 


展开 主 循 坏 ， 使 其 包含 KR 个 原 循环 体 的 拷贝 ， 放 使 其 步 长 为 K: 
DOI=MOD(N, K)+1,N, K; 
U ERARE RE, EARE TE UL RAT p 


在 循环 体 的 第 g 个 拷贝 SB —- BES BL) HE eB a 
为 对 tuopury -45+1 的 引用 ， 其 中 是 6 所 在 的 临时 组 中 最 大 的 索引 ; | 


end UnrollLoop 





图 8-9 展开 消除 拷贝 


(1) 首先 用 带 类 型 的 合并 找 出 如 8.3.1 节 中 讲 的 一 组 名 字 划 分 。 我 们 利用 一 个 临时 变量 替 
换 一 组 中 的 所 有 引用 ， 或 者 复制 一 组 临时 变量 来 覆盖 多 次 达 代 。 

(2) 缓解 寄存 器 压力 ， 选 择 能 够 放 入 可 用 寄存 器 的 名 字 划 分 并 最 大 限度 地 减少 内 存 引 用 
的 个 数 。 可 以 使 用 装 箱 算 法 或 者 在 8.3.6 中 介绍 的 相关 启发 式 算法 。 
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(3) 用 对 标量 的 引用 替换 每 一 个 被 选择 的 名 字 划 分 : 

a) 如 果 它 是 无 环 划分 ， 就 用 一 组 惟一 的 临时 变量 来 替换 ， 该 集合 所 跨越 的 每 次 迭代 都 用 
其 中 一 个 引用 替换 掉 ， 如 8.3.4 节 所 示 。 在 可 能 的 情况 下 ， 利 用 输出 依赖 将 存 数 操作 移出 循环 ， 
利用 输入 依赖 把 取 数 移出 循环 。 

b) 如 果 它 是 环 状 划分 ， 就 用 一 个 临时 变量 替换 所 有 的 引用 。 

c) 对 不 一 致 的 依赖 来 说 ， 可 以 用 索引 集 分 裂 来 确保 正确 的 值 被 传递 ， 或 者 在 循环 中 插入 
取 数 和 存 数 。 

(4) 最 后 ， 作 循环 展开 以 消除 8.3.4 节 中 所 示 的 寄存 器 -寄存 器 拷贝 操作 。 展 开 次 数 等 于 由 
选 定 的 组 中 的 各 集合 跨越 迭代 的 个 数 的 最 小 公 倍 数 。 


8.3.8 实验 数据 

为 了 说 明 标量 替换 的 效果 ， 这 里 我 们 报告 它 在 众多 流行 的 基准 测试 程序 的 核心 和 程序 上 
的 应 用 结果 。 这 里 给 出 的 结果 来 自 Carr 的 学 位 论文 [64，67]。 在 实验 中 ， 他 运行 了 程序 的 两 个 
原始 的 版 本 和 经 过 标量 替换 而 得 到 的 新 版 本 。 这 两 种 版 本 都 在 IBM RS/6000 540 型 机 
器 上 编译 和 运行 。 用 原先 的 版 本 的 运行 时 间 除 以 使 用 标量 替换 后 的 新 版 本 的 运行 时 间 的 比值 
代表 加 速 比 。 

图 8-10 显 示 在 著名 的 Livermore 循 环 中 得 到 的 加 速 比 。 图 中 仅 给 出 有 加 速 比 的 循环 ; 其 他 
所 有 的 循环 都 没有 变化 。 在 一 个 有 非常 好 的 寄存 分 配器 的 编译 器 上 ， 我 们 可 以 看 到 改进 的 范 
围 从 一 般 的 1.03 到 令 人 吃惊 的 2.67。 注 意 ， 除 非 目标 机 的 编译 器 过 于 简单 ， 否 则 标量 替换 绝 不 


会 导致 性 能 损失 。 


LLI k LL7 LL8 Lii IE LLB. LLI8 LLZ ELZ 
核心 程序 
图 8-10 对 Livermore 循 环 的 标量 替换 


Carr 也 在 许多 著名 的 核心 程序 上 测试 了 标量 替换 ， 比 如 LAPACK[29] 中 实现 的 LU 分 解 ， 
若干 个 NAS 核 心 程序 ， 以 及 他 在 Rice 找 到 的 一 些 核心 程序 [ 表 8-1]。 图 8-11 中 显示 的 结果 包括 
有 选 主 元 和 不 用 选 主 元 的 LU 分 解 的 核心 ， 并 涵盖 了 点 算法 版 本 和 分 块 的 版 本 。 这 些 核心 程序 
都 包含 要 用 依赖 分 析 来 检测 的 不 变数 组 引用 ， 因 此 在 只 能 处 理 标量 的 编译 器 里 不 可 能 得 到 这 
样 的 加 速 比 。 在 Seval 和 Sor 上 得 到 两 个 异常 的 性 能 ， 是 由 于 标量 替换 成 功 地 优化 了 一 个 计算 密 
集 的 循环 ， 而 几乎 所 有 的 运行 时 间 都 集中 于 此 。 
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表 8-1 测试 核心 的 存储 变换 











程 序 包 KB 心 描述 
Lin Alg MM 和 矩阵 乘法 
LU LU 分 解 
LUP 带 选 主 元 的 LU 分 解 
BLU 块 LU 分 解 
BLUP 带 选 主 元 的 块 LU 分 解 
NAS Vpenta 五 对 角 和 矩阵 求 逆 
Emit 涡流 生成 
Gmtry 解 涡 流 生 成 的 高 斯 消去 法 
Geophysics Fold 卷 积 
Afold 卷 积 
Local Seval B- 样 条 求 值 
Sor 连续 超 松 弛 





加 速 比 





LU LUP BLU BLUP Emit Gmtry Seval Sor 
核心 程序 


图 8-11 对 线性 代数 核心 程序 的 标量 替换 
Carr 也 在 许多 基准 测试 应 用 程序 [ 表 8-2] 上 测试 了 标量 替换 。 这 些 程序 选 自 著名 的 程序 包 
SPEC，Perfect，RiCEPS (Rice 大 学 收集 的 一 组 编译 器 基准 测试 程序 ) 以 及 另外 三 个 来 自 Rice 
但 不 属于 RiCEPS 的 应 用 程序 。 
表 8-2 测试 应 用 程序 的 存储 变换 





fF KB wb fi ” 述 

SPEC Matrix300 矩阵 乘法 
Tomcatv 网 格 生成 

Perfect Adm 伪 光 谱 空 气 污染 
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程 序 包 KR wb fii 8 

Flo52 超 音 速 无 粘性 流 
RiCEPS Onedim Is ial JE EI BEE SB OS FE 

Shal 天 气 预 报 

Simple 2 维 流 体力 学 

Sphot 粒子 迁移 

Wave 电磁 粒子 模拟 
Local CoOpt 石油 勘探 


在 图 8-12 中 给 出 这 些 应 用 在 标量 赫 换 之 后 的 性 能 。 尽管 其 中 的 一 些 循环 得 到 了 显著 的 加 
速 比 ， 但 标量 替换 对 这 些 应 用 的 总 的 改进 不 大 (没有 得 到 改进 的 程序 未 列 出 )。 











加 速 比 














Adm Flo52 Shal Simple Sphot Wave 
应 用 程序 


图 8-12 对 基准 测试 应 用 程序 的 标量 替换 


8.4 展开 和 压 紧 
我 们 现在 回 到 图 8-1 的 例子 的 一 个 版 本 : 
DO I = 1, N*2 
DOJ=1,M 
ACI) = ACL) + B(J) 
ENDDO 
ENDDO 


基于 内 层 循环 所 携带 的 依赖 ， 标 量 替换 可 以 最 大 限度 地 减少 对 A 的 引用 ， 且 效 果 非 常 好 。 
然而 外 层 循环 也 携带 了 一 个 对 8 的 输入 依赖 ， 因此 从 那个 依赖 也 可 以 得 到 一 些 重用 的 机 会 。 

如 现在 构造 的 循环 ， 我 们 不 大 可 能 得 到 重用 ， 因 为 在 J- 循 环 的 各 次 迭代 中 ， B(J) 的 一 个 
特定 的 值 必 须 保留 在 一 个 寄存 器 里 , 直到 I- 循 环 的 下 一 次 选 代 。 既然 J- 循 环 的 迭代 次 数 N 未 知 ， 
我 们 必须 假定 任何 一 个 给 定 的 机 器 都 没有 足够 的 寄存 器 来 得 到 对 8B 更 多 的 重用 。 然而 ， 如 果 作 
一 个 简单 的 称 为 展开 和 压 紧 的 变换， 我 们 就 能 让 各 对 过 代 更 紧密 : 


TE 
Te TSS 
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DO I = 1, N*2, 2 
DOJ=1, M 
ACI) = ACI) + B(J) 
A(I+1) = ACI+1) + B(J) 
ENDDO 
ENDDO 
这 个 变换 的 本 质 是 把 外 层 循环 展开 为 多 个 迭代 ， 然 后 合并 内 层 循 环 的 副本 。 通 过 这 个 变 
转换 ， 我 们 已 将 对 B(J) 的 两 次 引 使 用 放 在 一 起 ， 因 此 循环 的 这 一 新 版 本 对 每 两 次 引用 只 对 
B(J) 作 一 次 取 数 操作 。 如 果 用 两 个 标量 来 存放 A(I) 和 A(I+1) 的 值 ， 用 一 个 标量 来 存放 B(J) 的 
值 ， 那 么 在 整个 内 层 循环 中 我 们 将 需要 3 个 寄存 器 : 
DO I = 1, N*2, 2 
sO = A(I) 
sl = A(I+1) 
D0OJ=1, M 
t = B(J) 
sO = s0+t 
sl = sl+t 
ENDDO 
A(T) = s0 
A(I+1) = sl 
ENDDO 
内 层 循 环 现在 对 每 两 个 浮 点 加 法 只 需要 一 次 取 数 。 虽 然 内 层 循 环 总 共 仍 然 需 要 MM 次 取 数 ， 
1 循环 的 执行 次 数 减 少 为 原来 的 一 半 。 因 此 以 取 数 操作 的 个 数 计算 的 总 的 计算 代价 也 只 是 原 
长 的 一 半 。 展 开 因素 多 于 2 可 以 节省 更 多 的 代价 。 
展开 和 压 紧 还 可 用 于 改进 流水 线 功 能 部 件 的 效能 。 考 虑 下 面 的 循环 : 
DO J = 1, M*2 
DOI=1,N 
A(I, J) = A(I+1, J) + A(I-1, J) 
ENDDO 
ENDDO 
这 里 ， 内 层 I 循 环 的 一 次 寺 代 计算 出 的 值 作为 下 一 次 揭 代 中 计算 的 输入 。 这 样 尽管 提供 了 
好 的 重用 ,但 导致 执行 流水 线 的 问题 。 如 果 功 能 部 件 流水 线 包含 两 级 ， 下 一 次 迭代 就 需要 从 
当前 迭代 开始 起 等 待 两 个 周期 才能 开始 。 因 此 执行 这 个 循环 修 套 的 总 的 时 间 最 少 也 要 2*MPN 个 
周期 。 
另 一 方面 ， 如 果 对 这 个 相同 的 例子 使 用 展开 和 压 紧 ， 我 们 就 得 到 


DO J = 1, M*2, 2 


DOI=1,N 
S, ACI, J) = A(I+1, J) + A(I-1, J) 
S: ACI, J+1) = A(I+1, J+1) + A(I-1, J+1) 
ENDDO 
ENDDO 


这 时 ， 我 们 有 两 个 共享 同一 个 功能 部 件 的 独立 的 依赖 环 。 因 此 ， 该 功能 部 件 能 在 这 两 个 依赖 
环 上 交替 进行 工作 ， 在 执行 语句 Si 之 后 的 周期 ， 启 动 语句 S$: 的 加 法 和 运算。 这样， 这 两 个 依赖 环 
只 需要 花费 原来 计算 其 中 之 一 所 需 的 时 间 就 可 以 全 部 完成 。 既 然 外 层 循环 只 有 一 半 的 和 迭代， 
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因此 执行 循环 从 套 就 只 需要 一 半 的 时 间 。 在 标量 替换 后 ， 这 段 代 码 就 变 为 如 下 的 形式 : 
DO J = 1, M*2, 2 
s0 = A(0, J) 
sl = ACO, J+1) 
DO I=1,N 
Si sl = A(I+1, J) + sl 
Sz s0 = A(I+1, J+1) + s0 
A(I, J) = s0 
ACI+1, J) = sl 
ENDDO 
ENDDO 


对 每 一 对 浮 点 操作 来 说 ， 内 层 循环 要 执行 两 次 取 数 和 两 次 存 数 。 


8.4.1 展开 和 压 紧 的 合法 性 
我 们 现在 来 讨论 展开 和 压 紧 的 合法 性 问题 。 显 然 ， 上 面 的 转换 是 合法 的 。 那 么 ， 展 开 和 
压 紧 会 不 会 不 合法 呢 ? 考虑 下 面 的 循环 : 
DO I = 1, Ne2 
DOJ =1, M 
A(I#1, J-1) = ACI, J) + BCI, J) 
ENDDO 
ENDDO 


图 8-13 是 这 个 循环 的 依赖 模式 。 注 意 : 如 果 J- 循 环 是 内 部 循环 ， 对 应 于 I=1 和 J=2 的 语句 
实例 就 会 在 对 应 于 I=2 和 J=1 的 语句 实例 之 前 执行 ， 因 为 所 有 I=1 的 语句 实例 都 会 在 任何 1=2 的 
语句 实例 之 前 执行 。 


J=1 J=2 J=3 J=4 


图 8-13 展开 和 压 紧 的 依赖 模式 
如 果 我 们 对 这 个 循环 作 展 开 和 压 紧 ， 展 开 两 次 ， 我 们 就 得 到 : 


DO I = 1, N*2, 2 
D0 J=], M 
A(I+1, J-1) = ACI, J) + BCI, J) 
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A(I+2, J-1) = A(I+1, J) + B(I+1, J) 
ENDDO 
ENDDO 


在 变换 后 的 循环 中 ， 对 的 每 个 值 ， 我 们 执行 I- 循 环 的 两 个 迭代 ， 由 图 8-14 中 包围 S(1,1) 
和 5(2,1) 的 方 框 表示 。 这 两 个 迭代 是 在 包含 5(2,1) 和 5(2,2) 的 迭代 前 执行 。 因 此 ， 依 赖 源 点 
所 在 的 语句 在 其 汇 点 之 后 执行 。 这 显然 是 不 合法 的 ， 这 意味 着 展开 和 压 紧 不 能 保持 程序 的 原 
有 涵义 。 
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图 8-14 非法 的 展开 和 压 紧 


你 可 能 注意 到 ， 这 个 循环 中 的 依赖 方向 向 量 为 (《,>)， 这 使 得 循环 交换 变 得 不 合法 。 对 此 
不 要 大 惊 小 怪 ， 因 为 我 们 把 展开 和 压 紧 看 作 是 循环 交换 ,跟着 展开 内 层 循环 (总 是 合法 的 )， 
接着 做 另 一 次 循环 交换 。 那 么 ， 是 不 是 只 要 循环 交换 是 非法 的 ， 我 们 就 应 该 认为 循环 的 展开 
和 压 紧 是 非法 的 呢 ? 看 下 面 示例 循环 的 一 个 变形 ; 
DO I = 1, N*2 
DOJ =1, M 
A(1#2, J-1) = A(I, J) + B(I, J) 
ENDDO 
ENDDO 


依赖 的 汇 语句 现在 有 两 个 I- 循 环 的 迭代 那么 远 。 图 8-15 显 示 这 种 依赖 模式 。 

如 果 我 们 展开 一 次 得 到 内 层 循 环 中 语句 的 两 个 拷贝 ， 仍 然 可 以 保证 每 一 个 依赖 的 源 点 都 
在 汇 点 之 前 执行 。 另 一 方面 ， 展 开 到 三 个 拷贝 将 颠倒 依赖 ， 使 变换 成 为 非法 。 

我 们 现在 要 介绍 使 得 展开 和 压 紧 为 非法 的 条 件 。 


定义 8.1 因子 为 x 的 展开 和 压 紧 包 含 将 外 层 循 环 展开 n - 1 次 ， 生 成 内 层 循 环 的 n 
个 拷贝 ， 以 及 将 这 些 拷 贝 合并 起 来 的 过 程 。 


定理 8.1 因子 为 "的 展开 和 压 紧 是 合法 的 ， 当 且 仅 当 不 存在 方向 向 量 为 (< ，> ) 
的 依赖 使 其 对 于 外 层 循 环 的 距离 小 于 n。 
证 明 从 上 述 讨论 可 以 看 出 ， 如 果 存 在 这 样 的 依赖 ， 变 换 显然 是 非法 的 。 如 果 不 
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FELRE? 这 时 有 两 种 情况 。 如 果 不 存在 方向 向 量 为 (< ，> ) 的 依赖 ， 
那么 循环 交换 是 合法 的 ， 展 开 和 压 紧 也 必然 是 合法 的 。 另 一 方面 ， 如 果 存 在 这 样 的 
依赖 ， 它 的 距离 必定 是 "或 更 大 。 那 么 依赖 的 源 点 在 原来 循环 的 一 个 迭代 中 ， 它 的 汇 
点 在 至 少 * 个 选 代 之 后 的 一 个 迭代 中 。 在 展开 和 压 紧 之 后 ， 这 两 个 和 迭代 不 可 能 在 同一 
组 迭代 中 ， 因 为 因子 是 “一 一 在 同一 组 中 的 两 次 迭代 的 距离 最 大 是 "。 








图 8-15 合法 的 展开 和 压 紧 


注意 当 我 们 测试 展开 和 压 紧 是 否 合法 时 ， 必 须 使 用 完整 的 依赖 图 ， 不 能 使 用 用 于 标量 替 
换 的 经 过 剪 枝 的 版 本 。 这 是 因为 在 保持 程序 的 正确 性 方面 我 们 必须 谨慎 ， 而 在 考虑 标量 替换 
时 我 们 希望 只 找 出 与 系统 的 重用 相关 的 依赖 。 


8.4.2 展开 和 压 紧 算法 
现在 我 们 要 介绍 一 种 展开 和 压 紧 的 算法 。 图 8-16 中 的 过 程 假定 展开 的 因子 是 m， 展 开 后 循 
环 体 的 副本 个 数 由 另 一 个 过 程 决定 ， 并 在 后 面 讨论 。 


procedure UnrollAndJam(L, m) 


I LEBEL E 
/ m 是 展开 因子 
令 外 层 循 环 头 为 

DO I=1, N; 


将 外 层 循环 分 烈 为 两 个 循环 ， 一 个 是 前 置 循环 


DO I=1, MOD(N, m) 
以 及 一 个 主 循环 
DO [=MOD(N, m)+1, N 
具有 循环 体 的 相同 拷贝 ; 
RAN BEER, ELAS RAMAN TEN, IER KAM: 
DO I=MOD(N, m)+1, N, m; 





图 8-16 展开 和 压 紧 算法 
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/ 如 在 所 有 的 展 升 索引 中 一 样 ，I 在 循环 体 的 第 p 个 拷贝 中 被 赫 换 为 I+P 
令 G' 是 循环 的 依赖 图 ， 并 以 自然 的 方式 作 了 调整 ， 包 含 多 个 循 坏 体 中 的 语句 和 循环 ， 
并 销 除外 层 循 坏 携带 的 依赖 ; 


在 G' 上 使 用 算法 TypedFusion (816-9) 合并 展开 后 的 外 主 循 坏 体 中 的 循 坏 ， 
为 循环 头 不 同 的 循环 赋予 不 同 的 类 型 并 对 不 存 循 环 中 的 庄 句 另 赋 一 个 类 型 ; 


以 同样 的 方式 对 上 -一 步 合并 的 循环 的 循 坏 体 递 归 地 使 用 算法 TypedFusion; 
for each 由 合并 外 层 循环 得 到 的 循环 do begin 
挑选 一 个 展开 因子 m'; 
UnroliAndJam(L', m'); 
end 
end UnrollAndJam 


图 8-16 ( 续 ) 


为 了 看 出 这 种 算法 在 非 紧 候 循环 中 的 效果 ， 考 察 下 面 的 循环 妃 套 : 
DOI=1,N 
DOK =1,N 
ACI) = ACI) + ACK) 
ENDDO 
DOJ = 1, M 
DOK =1,N 
B(J, K) = B(J, K) + ACI) 
ENDDO 
ENDDO 
DOJ=1, M 
C(I, I) = BCJ, N)/A(T) 
ENDDO 
ENDDO 


首先 ， 我 们 对 外 层 I- 循 环 作 展 开 和 压 紧 ， 得 到 结尾 相连 的 循环 体 的 两 个 拷贝 ， 这 包括 I- 
循环 中 原 有 的 每 个 循环 的 两 个 拷贝 。 然 后 我 们 运用 带 类 型 的 合并 递归 地 合并 相 容 的 循环 ， 尽 
管 它们 并 不 一 定 在 一 起 。 在 这 个 例子 中 ，J- 循 环 是 相 容 的 ， 因 为 它们 从 1 执行 到 4， 而 K- 循 环 
则 从 1 执行 到 N。 这 样 就 有 

DOI=mN2+1,N,2 

DOK=1,N 


A(I) = A(I) + X(I, K) 
A(I+1) = A(I+1) + X(I, K) 


ENDDO 
D0OJ=1, M 
DOK=1,N 


BC K) = BCU, K) + ACT) 
B(J, K) = B(J, K) + A(I+1) 
ENDDO 
c(J, 1) = B(J, N) / ACI) 
C(d, I+) = B(d, N) / A(I+1) 
ENDDO 
ENDDO 


接 下 来 我 们 对 内 层 J~ 循 环 重 复 这 个 过 程 一 -展开 和 压 紧 ， 然 后 进行 递归 的 带 类 型 合并 : 
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DO I = mN2 +1, N, 2 
DOK=1,N 
A(T) = ACT) + X(T, K) 
A(I+1) = A(I+1) + X(I, K) 
ENDDO 
mM2 = MOD(M, 2) 
DO J = 1, mM2 
DOK =1, N 
B(J, K) = B(J, K) + ACT) 
B(J, K) = B(J, K) + ACI+1) 
ENDDO 
C(J, I) = B(J, N)/ACT) 
C(d, I+1) = BCI, N)/A(I+1) 
ENDDO 
DO J=mM2+1, M, 2 
DO K=1, N 
B(J, K)=B(J, K)+A(T) 
B(J, K)=B(J, K)+ACI+1) 
B(J+1, K)=B(J+1, K)+A(I) 
B(J+1, K)=B(Jt1, K)+A(I+1) 
ENDDO 
C(J, I) = B(J, N)/A(I) 
C(J, I+1) = B(J, N)/ACI+1) 
C(J+1, I) = B(d+1, N)/A(I) 
C(J+1, 1+1) = B(J+1, N)/A(I+1) 
ENDDO 
ENDDO 


使 用 标量 替换 得 到 


DO I = mN2+1, N, 2 
tA0 = A(I); tAl = A(I+1) 


DOK=1,N 
tX = X(I, K); tAO = tAO + tX; tAl = tAl + X(I, K) 
ENDDO 


A(I) = tAO; A(I+1) = tAl 
mM2 = MOD(M, 2) 
DO J = 1, mM2 
DOK=1,N 
tB0 = B(J, K); tBO = tBO + tAO 
tBO = tBO + tAl; B(J, K) = tB0 
ENDDO 
C(J, I) = tBO/tA0; C(J, I+1) = tB0/tAl 
ENDDO 
DO J = mM2+1, M, 2 
DOK=1,N 
tBO = B(J, K); tBO = tBO + tAO 


tBO = tBO + tAl; B(J, K) = tBO 

tB1 = B(J+1, K); tBl = tBl + tad 

tBl = tBl + tAQ; B(J+1, K) = tBl 
ENDDO 


C(d, I) = tBO/tAO; C(J, I+1) = tB0/tAl 


SF 
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C(J+1, I) = tB1/tA0; C(J+1, I+1) = tB1/tAl 
ENDDO 
ENDDO 


很 明显 ， 大 量 的 数组 引用 已 经 被 转化 为 对 标量 的 引用 并 可 分 配给 寄存 器 。 然 而 所 需 的 浮 
点 寄存 器 的 个 数 只 是 5 个 。 


8.4.3 展开 和 压 紧 的 效果 

本 节 介 绍 Carr 在 展开 和 压 紧 及 标量 替换 的 效果 方面 所 得 到 的 一 些 结果 [64，67]。 在 下 列 的 
每 一 项 测试 中 ， 原 来 的 Fortran 程 序 通 过 Carr 在 Rice 大 学 开发 的 实验 性 的 循环 重 构 器 ， 得 到 变换 
后 的 版 本 。 考 虑 到 本 节 中 所 介绍 的 实验 ， 重 构 器 仅 使 用 了 展开 和 压 紧 以 及 标量 替换 这 两 种 变 
换 。 然 后 原来 的 和 转换 后 的 版 本 均 在 IBM RS/6000 540 型 机 器 上 编译 和 运行 。 加 速 比 用 原版 本 
的 运行 时 间 和 变换 后 版 本 的 运行 时 间 的 比值 来 计算 。 

两 个 LAPACK 核 心 程序 一 -BLU (分 块 LU) 和 BLUP (用 选 主 元 的 分 块 LU) 一 一 在 分 块 
大 小 为 32 个 元 素 的 500 x 500 和 矩阵 上 得 到 了 我 们 所 提 到 的 加 速 比 。 三 个 NAS 核 心 程序 一 一 
Vpenta，Emit 和 Gmtry 一 一 的 加 速 比 ， 对 Vpenta 效 果 不 明显 ， 对 Emit 有 所 提高 ， 对 Gmtry 则 有 
显著 增加 。Gmtry 和 Emit 都 包含 关键 的 计算 密集 的 循环 娱 套 和 外 层 循环 归 约 ， 正 适合 作 展开 和 
EK. 最后， 两 个 地 球 物理 学 的 核心 程序 (Afold 和 Fold) 涉及 卷 积 计算 , 这 也 是 作 展 开 和 压 
紧 的 好 的 对 象 。 

carr 也 对 8.3.8 节 中 提 到 的 基准 测试 程序 集中 的 一 些 应 用 测试 了 这 种 方法 。 整 体 的 性 能 提 
高 非常 少 ， 因 为 在 单个 循环 中 的 效果 被 那些 无 法 优化 的 代码 抵消 了 。 

图 8-17 和 8-18 展 现在 标量 替换 上 的 展开 和 压 紧 得 到 的 有 限 的 性 能 改进 。 那 些 没有 提 到 的 核 
心 或 应 用 程序 则 不 管 使 用 哪 一 种 技术 都 无 法 得 到 加 速 比 。 


















MM BLU BLUP Vpenta Emit Gmtry Afold Fold Seval Sor 


核心 程序 
图 8-17 对 核心 程序 的 带 标量 替换 的 展开 和 压 紧 
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图 8-18 对 应 用 程序 的 带 标量 替换 的 展开 和 压 紧 


图 中 没有 显示 的 是 矩阵 乘法 程序 Matrix300 , 它 是 原来 的 SPEC 基 准 测 试 程序 集中 的 一 部 分 ， 
且 使 用 了 一 个 对 最 内 层 循 环 求 和 归 约 的 标准 实现 。 对 于 500 x 500 和 矩阵 ， 使 用 展开 和 压 紧 以 及 
标量 赫 换 能 够 得 到 4.58 的 加 速 比 。 在 Kuck and Associates 的 采用 类 似 算法 的 IBM RS/6000 编 译 
器 的 前 端 上 可 以 重新 产生 对 Matrix300 的 显著 的 性 能 改进 ， 这 种 提高 是 从 SPEC 基 准 测 试 程序 
集中 去 掉 Matrix300 的 主要 原因 之 一 。 
显然 ， 当 展开 和 压 紧 可 用 时 ， 它 是 当今 单 处 理 器 上 优化 标量 浮 点 计算 性 能 的 一 个 强大 工 
具 。 然 而 ， 它 的 最 重要 的 应 用 之 一 可 能 是 节省 程序 员 部 分 的 工作 。 为 了 说 明 这 个 问题 ， 我 们 
以 下 面 的 代码 段 为 例 : 
J = MOD(N2, 2) 
IF (J.GE.1) THEN 
DO 10 I =1, N1 
Y(I) = (Y(I)) + X(J) * M(I, J) 
10 CONTINUE 
ENDIF 
J = MOD(N2, 4) 
IF (J.GE.2) THEN 
DO 20 I=1, N1 


Y(I) = ((Y(I))+X(J-1) * M(I, J-1)) + X(J) * M(I, J) 
20 CONTINUE 
ENDIF 
J = MOD(N2, 8) 


IF (J.GE.4) THEN 
DO 30 I = 1, NI 
YCI) = ((( (Y(I)) & 
+ X(J-3) * M(I, J-3)) + X(J-2) * M(I, J-2)) & 
+ X(J-1) * M(I, J-1)) + X(J) * M(I, J) 
30 CONTINUE 
ENDIF 
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J = MOD(N2,16) 
IF (J.GE.8) THEN 
DO 40 I = 1, N1 
¥CI) = (((((((C (Y(I)) & 
+ X(J-7) * MCI, J-7)) + Z(J-6) * M(I, J-6)) & 
+ X(J-6) * MCI, J-5)) + X(J-4) * M(I, J-4)) & 
+ X(J-3) * MCI, J-3)) + X(J-2) * M(I, J-2)) & 
+ X(J-1) * M(I, J-1)) + X(J) * M(I, J) 
40 CONTINUE 
ENDIF 
JMIN = J + 16 
DO 60 J = UMIN, N2, 16 
DO 50 I= 1, N1 
Y(I) = (C(O CYC) & 
+ X(J-15) * M(I, J-16)) + X(J-14) * M(I, J-14)) & 
+ X(J-13) * M(I, J-13)) + X(J-12) * M(I, J-12)) & 
+ X(J-11) * M(I, J-11)) + X(J-10) * M(I, J-10)) & 
+ X(J-9) * M(I, J-9)) + X(J-8) * M(I, J-8)) & 
+ X(J-7) * MCI, J-7)) + X(J-6) * M(I, J-6)) & 
+ X(J-5) * MCI, J-5)) + X(J-4) * M(I, J-4)) & 
+ X(J-3) * MCI, J-3)) + X(J-2) * MCI, J-2)) & 
+ X(J-1) * M(I, J-1)) + X(J) * MCI, J) 
50 CONTINUE 
60 CONTINUE 


虽然 这 段 代 码 看 来 像 是 计算 机 程序 利用 类 似 于 展开 和 压 紧 的 变换 写 的 ， 但 实际 上 ， 作 为 
LINPACKD 基 准 测试 程序 的 一 部 分 ， 它 是 Jack Dongarra 和 他 的 同事 用 手写 的 。 要 写 出 这 样 的 
代码 以 充分 利用 带 有 高 速 缓存 和 寄存 器 的 机 器 是 非常 不 容易 的 。 注 意 ， 在 I 循环 执行 的 整个 过 
程 中 ， 元 素 X(J:J+16) 将 保存 在 高 速 缓存 中 (如 果 它 们 的 个 数 超过 16， 则 保存 学 点 寄存 器 中 )。 

很 清楚 这 段 代 码 是 从 下 列 更 简单 、 更 容易 理解 的 LINPACKD 的 DMXPY 程 序 段 改写 而 成 的 : 


DO 20 J = 1, N2 
00 10 I= 1, NI 
Y(I) = Y(I) + X(J) * MCT, J) 
10 CONTINUE 
20 CONTINUE 


遗憾 的 是 ， 当 这 段 较 简 单 的 代码 在 MIPS M120 上 执行 时 ， 它 需要 28 秒 ， 而 Dongarra 版 本 只 需 
要 18.5 秒 。 

编译 优化 的 目的 之 一 是 让 程序 员 不 必 再 写 如 前 面 Dongarra 的 例子 一 样 的 与 机 器 密切 相关 
的 、 复 杂 的 代码 。 好 消息 是 ， 当 使 用 Carr 和 Kennedy 的 展开 和 压 紧 加 上 标量 替换 来 处 理 这 段 代 
码 的 较 简 单 的 版 本 时 ， 输 出 程序 只 需 执行 17.5 秒 ， 这 就 胜 过 了 Dongarra 版 本 。 这 意味 着 展开 和 
压 紧 这 样 的 技术 使 得 程序 员 不 必 再 为 存储 层次 结构 的 更 高 性 能 而 手工 编写 代码 。 
8.5 面向 寄存 器 重用 的 循环 交换 

迄今 为 止 ， 我 们 尚未 考虑 循环 顺序 对 寄存 器 重用 的 影响 。 虽 然 大 多 数 用 户 会 以 这 样 的 方 
式 来 写 循 环 ， 使 得 带 在 的 重用 被 分 配 到 最 内 层 循环 ， 但 是 也 可 以 举 出 这 样 的 一 些 例子 ， 其 中 
最 优 的 循环 顺序 可 能 并 不 明显 。 对 于 程序 员 来 说 ， 这 问题 由 于 需要 清楚 地 指定 计算 而 复杂 化 。 
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考虑 到 和 存储 层次 中 的 其 它 部 分 ， 如 高 速 缓存 ( 见 第 9 章 ) 的 相互 作用 ， 问 题 可 能 更 为 复杂 。 
最 后 ， 被 编译 的 代码 可 能 并 不 是 由 编译 器 产生 ， 而 是 来 自 预 处 理 预 处 理 器 ， 如 将 Fortran 90 数 
组 语句 转换 成 循环 的 预 处 理 预 处 理 器 (参见 第 13 章 )。 
以 下 面 的 循环 为 例 ， 它 包含 用 来 初始 化 矩阵 的 Fortran 90 向 量 语句 : 
D01=2,N 
A(1: M, I) = A(1: M, I-1) 
ENDDO 
D0 循环 “携带 ”第 一 列 的 值 穿 过 整个 数组 。 如 我 们 将 在 第 13 章 中 所 见 到 的 一 样 ， 这 个 循环 会 
被 转换 成 下 面 的 标量 循环 : 
DOI=2,N 
DOJ=1,M 
A(J, I) = ACJ, I-1) 
ENDDO 
ENDDO 


一 个 简单 的 实现 将 产生 
0D0I=2,AN 
DOJ=1, M 
Ri = ACJ, I-1) 
ACJ, 1) = Ra 
ENDDO 
ENDDO 


在 这 种 形式 中 ， 代 码 将 第 一 列 的 元 素 传播 到 第 二 列 ， 然 后 又 将 第 二 列 的 传播 到 第 三 列 ， 
依次 类 推 。 整 个 取 数 和 存 数 的 次 数 是 (N-1)M。 尽 管 相同 的 值 被 保存 在 一 行 的 每 个 元 素 中 ,我 
们 仍然 必须 在 每 一 次 存 数 前 取 这 些 值 。 然 而 ， 如 果 把 标量 化 的 循环 与 外 层 循环 交换 ， 这 算 阵 
将 一 次 初始 化 一 行 ， 使 得 在 整个 计算 过 程 中 把 当前 行 的 值 保存 在 一 个 寄存 器 里 变 为 可 能 。 换 
旬 话 说 ， 交 换 后 的 循环 峰 套 i 

DOJ=1,M 

DOI=2,N 
A(J, I) = ACJ, I-1) 
ENDDO 

ENDDO 
可 以 被 实现 为 

DOJ=1,M 

R = ACJ, 1) 
DOI=2,N 

A(J, 1) =R; 
ENDDO 

ENDDO 
这 个 版 本 仍然 要 求 (N-1)W 次 存 数 ， 但 是 取 数 的 次 数 减少 到 了 NM。 因此 这 循环 将 可 望 比 简单 的 版 
本 快 两 倍 。 

访问 存储 器 通常 都 需要 长 时 间 ， 即 使 高 速 缓存 命中 也 是 如 此 ， 因 此 这 样 的 改进 寄存 器 重 
用 的 变换 就 非常 重要 。 在 下 面 几 小 节 中 ， 我 们 将 讨论 在 哪些 情况 下 应 该 使 用 这 样 的 变换 以 及 
实现 这 些 变换 的 算法 。 
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8.5.1 对 循环 交换 的 考虑 
循环 交换 背后 的 基本 想法 是 通过 循环 交换 把 携带 大 部 分 依赖 的 循环 放 在 最 内 层 的 位 置 。 
这 使 在 循环 选 代 过 程 中 将 值 保存 在 寄存 器 里 使 重用 它们 成 为 可 能 。 虽 然 对 外 层 循环 携带 的 依 
赖 仍然 可 以 重用 ,但 是 收益 将 受到 寄存 器 资源 的 限制 。 
在 决定 把 哪 一 个 循环 移 到 最 内 层 位 置 方面 ， 传 统 的 循环 嵌 套 的 方向 矩阵 (参见 定义 5.3) 是 
于 分 有 用 的 。 首 先 ， 我 们 希望 移动 到 最 内 层 的 循环 是 那些 将 在 那个 位 置 携带 真 依赖 或 者 输入 
依赖 的 循 坏 。 交 换 后 ， 依 赖 向 量 在 对 应 于 所 有 外 层 循环 的 位 置 上 必须 是 “= ”， 对 应 于 内 层 循 
环 的 位 置 上 必须 是 “<”。 这 意味 着 我 们 应 该 在 依赖 矩阵 中 搜索 对 应 于 真 依赖 或 输入 依赖 的 行 ， 
这 些 行 只 有 一 个 “<”， 而 其 余 位 置 包 含 “ =”。 携 带 与 这 些 行 相应 的 依赖 的 循环 是 移动 到 最 
内 层 循环 位 置 上 的 最 佳 候 选 。 循 环 媒 套 
DOJ=1,N 
DOK =1,N 
DO I = 1, 256 
A(I, J, K) = ACI, J-1, K) + ACI, J-1, K-1) + ACL, J, K-1) 
ENDDO 


ENDDO 
ENDDO 


有 三 个 真 依赖 ， 其 方向 矩阵 如 下 : 


A A 
A A od 
| 








第 一 行 只 有 一 个 “< ”， 第 三 行 也 是 。 第 二 行 有 两 个 “< ”符号 ， 故 该 行 所 代表 的 依赖 绝 
不 可 能 由 最 内 层 循环 携带 ， 因 为 最 外 层 的 “<” 对 应 于 携带 者 。 所 以 如 果 我 们 把 最 外 层 的 循 
环 移 到 最 内 层 位 置 ， 与 第 一 行 对 应 的 依赖 就 可 能 导致 重用 。 如 果 次 外 层 循环 与 最 内 层 交 换 ， 
对 应 于 第 三 行 的 依赖 就 可 能 导致 重用 。 
假设 在 这 个 例子 中 我 们 选择 最 外 层 循 环 。 那 么 ， 循 环 仍 套 变 成 
DO K=1,N 
DO I = 1, 256 
DOJ=1, N 
ACI, J, K) = ACI, J-l, K) + & 
ACI, J-1, K-1) + ACI, J, K-1) 
ENDDO 
ENDDO 
ENDDO 
在 J- 循 环 每 一 次 执行 中 ， 我 们 都 可 以 消除 一 个 对 右 端 第 一 个 操作 数 的 取 数 操作 。 
在 这 个 例子 中 ， 通 过 交换 两 个 外 层 循环 ， 然 后 应 用 8.4 节 中 的 展开 和 压 紧 ， 能 够 进一步 提 
高 重用 : 
DO I = 1, 256 
DOK =1, N, 2 
D0 J=1, N 
A(I, J, K) = ACI, J-1, K) + & 
ACI, J-1, K-1) + ACI, J, K-1) 


A 
~ 
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ACI, J, K+1) = ACI, J-1, K+1) + & 
A(I, J-1, K) + ACI, J, K) 
ENDDO : 

ENDDO 
ENDDO 


这 将 请 除 若 干 取 数 操作 ， 这 可 以 在 标量 替换 后 的 代码 中 看 到 : 


DO I = 1, 256 
DO K=1, N, 2 
rl = ACI, 0, K) 
r2 = ACI, 0, K+1) 
DOJ =1,N 


r0 = ri + ACI, J-1, K-1) + ACI, J, K-1) 
A(I, J, K) = r0 
r2= r2 + rl + r0 
ACI, J, K+1) = r2 
rl = r0 
ENDDO 
ENDDO 
ENDDO 
注意 ， 展 开 和 压 紧 不 仅 能 够 发 现 那些 由 于 在 其 列 中 只 有 一 个 “<” 的 依赖 的 重用 ， 也 能 发 现 
有 两 个 “<” 的 依赖 的 重用 。 如 果 我 们 考虑 循环 媒 套 中 的 输入 依赖 ， 这 段 代码 可 以 进一步 改 
进 。 我 们 将 这 留 作 一 个 习题 。 考 虑 输入 依赖 重 做 这 个 例子 。 
到 目前 为 止 ， 我 们 一 直 隐 含 地 假定 每 一 个 依赖 都 有 常数 单位 阀 值 。 如 果 某 个 依赖 有 可 变 
的 益 值 ， 就 应 当 从 寄存 器 的 重用 考虑 中 消除 。 另 一 方面 ， 如 果 这 个 变量 有 一 个 大 于 I 的 不 变 效 
值 ， 通 过 展开 或 循环 分 裂 仍然 能 导致 重用 。 这 将 在 以 后 的 章节 中 讨论 。 


8.5.2 循环 交换 算法 
下 面 要 讨论 的 是 有 利 性 问题 ， 当 有 多 种 可 能 的 上 时候， 应 该 把 哪 一 个 循环 移 到 最 内 层 的 位 
置 ? 例如 , 在 


DOI=1, 100 
DO J = 1，50 
DOK =1, N 
ACK, J, I) = ACK, J, I-1) + B(K, I) 
ENDDO 
ENDDO 
ENDDO 


中 ，I- 循 环 携带 一 个 真 依赖 ， 而 J- 循 环 携带 一 个 输入 依赖 。 


这 些 循 环 的 任何 一 个 都 可 以 被 移 到 最 内 层 的 位 置 。 作 为 内 循环 ， 哪 一 个 循环 的 性 能 更 好 呢 ? 
在 这 种 情况 下 ， 答 案 是 I- 循 环 。 因 为 它 挝 代 了 100 次 ， 把 它 作 为 最 内 层 循 环 可 以 将 对 A 的 取 数 
次 数 从 100 减 少 到 1， 因 此 节省 了 99 次 取 数 〈 仅 在 循环 开始 时 需要 对 A 取 一 次 数 )。 

如 果 J- 循 环 被 移 到 最 内 层 的 位 置 ， 对 B 的 取 数 次 数 就 从 50 减 少 到 1， 仅 仅 节省 了 49 次 取 数 。 
一 般 而 言 ， 由 于 节省 的 取 数 次 数 大 致 与 循环 迭代 次 数 和 由 循环 携带 的 依赖 个 数 的 乘积 成 正比 ， 





2, O å Y» 


选择 最 优 循环 是 非常 容易 的 。 

考虑 到 这 些 ， 我 们 就 可 以 非 正 式 地 说 明 选 择 最 内 层 循环 来 改善 寄存 器 分 配 的 算法 。 

(1) 构建 循环 代 套 的 方向 矩阵 ， 并 用 它 来 识别 可 以 被 合法 地 移 到 最 内 层 位 置 的 循环 ， 标 
量化 循环 除外 。 

(2) 对 每 一 个 循环 1， 令 count(1D) 为 方向 矩阵 在 对 应 /位 置 是 “< ”而 其 他 位 置 是 “=” 的 行 
数 。 
(3) 找 出 count() 和 循环 /的 进 代 次 数 的 乘积 为 最 大 的 循环 /。 
当然 ， 在 循环 上 界 是 变量 而 它们 的 值 在 编译 时 是 未 知 的 情况 下 ， 我 们 必须 作 一 些 简单 的 假设 。 

在 带 有 高 速 缓存 的 机 器 上 ， 使 用 交换 策略 必须 考虑 到 使 最 内 层 循 环 访问 数组 的 跨 距 为 1。 
这 一 点 将 在 第 9 章 讨论 。 
8.6 面向 寄存 器 重用 的 循环 合并 

尽管 大 多 数 程 序 员 可 以 很 自然 地 写 出 重用 程度 很 高 的 循环 藤 套 ， 但 在 许多 情况 下 循环 黎 
套 的 合并 也 会 产生 很 好 的 结果 。 一 个 重要 的 例子 是 当 循环 内 套 是 某 种 形式 的 预 处 理 的 结果 时 ， 
如 第 13 章 中 讨论 的 Fortran 90 的 数组 语句 被 转换 为 标量 循环 时 。 

考虑 下 面 的 Fortran 90 例 子 : 

A(l:N) = C(1:N) + D(1:N) 

B(1:N) = C(1:N) - D(1:N) 
在 这 种 情况 下 ， 两 个 语句 使 用 段 相同 的 C 和 D。 从 这 些 语句 很 清楚 地 看 出 ， 共 同 的 元 素 应 该 从 
寄存 器 中 取得 重用 。 当 然 如 果 我 们 有 一 个 带 有 长 度 为 256 的 向 量 寄存 器 的 机 器 ， 对 编译 器 来 说 
要 保持 寄存 器 中 的 操作 数 是 相当 简单 的 。 然 而 ， 如 果 用 简单 的 方法 把 这 些 语句 变 成 标量 形式 
的 话 ， 则 共同 的 操作 数 会 分 开 : 

DOI=1, N 

A(I) = C(I) + D(T) 
ENDDO 
DOI=1, N 
B(I) = C(I) - DCI) 

ENDDO 
在 这 种 形式 中 ， 共 同 的 操作 数 已 经 分 开 了 ; 在 第 二 个 循环 访问 任 一 数组 的 任 一 元 素 前 ， 第 一 
个 循环 已 对 C 和 D 的 所 有 元 素 做 了 运算 。 这 样 ，C 和 D 的 所 有 元 素 都 必须 在 第 二 次 循环 中 再 次 从 
内 存 中 读 取 。 

循环 合并 最 初 是 在 6.2.5 节 中 讨论 的 ， 它 将 把 引用 合并 起 来 ， 以 便 能 够 重用 操作 数 : 


DOI=1,N 
ACI) = C(I) + D(I) 
B(I) = C(I) - D(T) 
ENDDO 


C 和 0 中 相应 的 段 现在 只 需 对 这 两 个 语句 作 一 次 取 数 ， 而 不 像 在 原来 的 标量 化 代码 中 要 作 两 次 
取 数 。 

回忆 一 下 ， 只 要 在 两 个 循环 之 间 没 有 阻碍 合并 的 依赖 ， 就 可 以 安全 地 合并 这 两 个 循环 。 
另外 ， 一 些 技术 条 件 ， 如 循环 有 相同 的 上 下 界 ， 是 需要 的 [1]。 
8.6.1 面向 重用 的 有 利 的 循环 合并 

循环 合并 是 安全 的 并 不 意味 着 它 就 是 有 利 的 。 当 沿 一 循环 无 关 依 赖 作 安全 的 循环 合并 时 ， 
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会 导致 两 种 依赖 之 一 : 循环 无 关 依 赖 或 者 前 向 循环 携带 依赖 。 很 容易 看 出 导致 循环 无 关 依赖 的 
循环 合并 是 如 何 改进 重用 的 。 然 而 ， 前 向 循环 携带 依赖 就 要 复杂 一 些 。 以 下 面 的 循环 伐 套 为 例 : 


DOJ=1, N 
DOI=1,M 
ACI, J) = C(I, J) + D(I, J) 
ENDDO 
DOI=], M 
B(I, J) =.A(I, J-1) - E(I, J) 
ENDDO 
ENDDO 
如 果 J- 循 环 能 够 被 移 到 最 内 层 的 位 置 ， 就 有 可 能 重用 保存 A 的 元 素 的 寄存 器 。 但 是 为 了 保 
证 这 种 可 能 性 ， 需 要 合并 这 些 循环 : 
DOJ=1,N 
DOI = 1, 256 
A(I, J) = C(I, J) + DCI, J) 
B(I, J) = A(I, J-1) - E(I, J) 
ENDDO 
ENDDO 


接 下 来 ，J- 循 环 就 能 被 移 到 最 内 层 的 位 置 ， 产 生 


DOI=1,M 
DO 9=1,N 
ACI, J) = C(I, J) + D(I, J) 
B(I, J) = ACI, J-1) - E(I, J) 
ENDDO 
ENDDO 


初 看 起 来 ， 因 为 寄存 器 的 生存 期 跨 过 了 J- 循 环 的 下 一 个 迭代 中 的 定义 点 ， 好 像 需要 两 个 寄存 
器 才能 得 到 重用 。 不 过 回忆 一 下 ， 语 名 顺序 不 影响 循环 携带 依赖 。 因 此 ， 颠 倒 这 两 个 语句 的 


顺序 得 到 
DOI=1,M 
DOJ=1, N 


B(I, J) = A(I, J-1) - E(I, J) 
ACI, J) = C(I, J) + OCI, J) 
ENDDO 
ENDDO 
现在 ， 为 了 在 J- 循 环 的 下 一 次 迭代 中 使 用 ，A(I,0) 可 以 被 保存 在 寄存 器 里 
存 来 读 取 A (不 需 在 I- 循 环 的 每 一 次 和 迭代 的 开始 作 一 次 取 数 )。 
可 是 ， 并 不 是 总 可 以 用 这 种 方法 来 交换 语句 的 顺序 。 假 设 前 面 的 例子 稍 作 改 变 : 
DOJ=1,N 
DOI=1,M 
ACI, J) = C(I, J) + DCI, J) 
ENDDO 
DOI=1," 
C(I, J) = ACI, J-1) - E(I,d) 
ENDDO 
ENDDO 





不 需要 访问 内 
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在 进行 合并 和 循环 交换 以 后 ， 就 变 成 
DOI=1,M 
DOJ=1,N 
AG, J) = C(I, J) + DI, J) 
C(I, J) = ACI, J-1) - E(I, J) 
ENDDO 
ENDDO 
由 于 C 上 的 循环 无 关 反 依赖 ， 现 在 不 能 颠倒 语句 顺序 。 在 遇 到 这 样 的 情况 时 ， 我 们 通常 像 
8.3 节 中 介绍 的 那样 ， 用 一 个 额外 的 寄存 器 来 克服 依赖 的 重 登 : 
DOI=1,N 
to = A(I, 0) 
DOJ=1,N 
tl = C(I, J) + D(I, J) 
ACI, J) = tl 
C(I, J) = t0 - E(I, J) 
t0 = tl 
ENDDO 
ENDDO 


其 中 寄存 器 的 复写 操作 可 以 通过 展开 而 消除 。 
这 样 ， 到 现在 为 止 对 于 我 们 所 关心 的 循环 合并 ， 两 个 循环 伐 套 之 间 的 循环 无 关 依 赖 只 有 
三 种 类 型 : 
(1) 它们 可 能 阻碍 合并 ， 这 意味 着 循环 不 能 被 正确 地 合并 。 这 些 依赖 也 被 称 为 阻碍 合并 
的 依赖 。 
(2) 当 循 环 合并 时 ， 它 们 可 能 依然 是 循环 无 关 的 。 如 果 执 行 合并 ， 这 些 依赖 可 能 提供 有 
利 的 循环 氨 代 内 的 寄存 器 重用 。 
(3) 它们 可 能 变 成 前 向 的 循环 携带 依赖 。 如 果 在 依赖 中 的 两 个 语句 可 以 通过 输入 预 取 颠 
倒 顺 序 ， 且 携带 这 些 依 赖 的 循环 可 以 移 到 最 内 层 的 话 ， 这 些 依赖 就 可 以 提供 跨越 迭代 的 有 利 
的 寄存 器 重用 。 
第 二 类 和 第 三 类 的 依赖 被 称 为 有 利 的 依赖 ， 因 为 如 果 作 了 合并 ， 它 们 将 提供 某 些 对 寄存 
器 的 重用 。 所 有 其 他 的 依赖 〈 包 括 反 依赖 和 对 齐 不 准 的 循环 无 关 依赖 ) 都 不 会 直接 影响 循环 
合并 ,但 是 在 决定 循环 合并 的 顺序 时 ， 必 须 考虑 它们 。 在 下 一 小 节 中 ， 我 们 将 介绍 怎样 把 这 
些 观察 到 的 东西 与 循环 合并 算法 结合 起 来 。 注 意 ， 我 们 通过 对 依赖 图 的 一 次 简单 的 遍历 来 找 
出 所 有 的 有 利 的 循环 携带 依赖 。 1 
8.6.2 面向 合并 的 循环 对 齐 
如 下 面 的 例子 所 示 ， 阻 塞 依赖 限制 了 循环 合并 : 
DO I=1,M 
DO J=1, N 
Sı A(J, I) = B(J, I) + 1.0 
ENDDO 
DOJ=1,N 
Sz C(J, I) = A(J+1, 1) + 2.0 


ENDDO 
ENDDO 
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这 里 ， 直 接合 并 两 个 内 层 循环 不 能 得 到 任何 重用 ， 因 为 这 将 引入 一 个 后 向 携带 的 反 依 赖 ， 从 
而 导致 转换 后 的 循环 代 套 得 出 错误 的 结果 。 

然而 ， 这 个 问题 可 以 用 一 种 称 为 循环 对 齐 的 简单 变换 来 解决 ( 见 6.2.3 节 )。 在 上 述 的 例子 
中 、 我 们 希望 把 结果 对 齐 ， 这 样 在 合并 后 ， 语 名 S51 的 结果 A(1,9) 就 和 语 名 5: 中 对 同一 个 值 的 使 
用 处 在 相同 的 迭代 中 。 策 略 是 要 把 第 一 个 循环 的 迄 代 范 围 与 第 二 个 循环 的 对 齐 。 在 这 个 例子 
中 ， 我 们 将 对 第 一 个 循环 的 索引 变量 I 的 每 一 个 实例 加 1， 同 时 从 上 界 和 下 界 减 去 1 作为 补偿 : 


DOI=], M 
DO J = 0, N-1 
Sı A(J+1, I) = B(J+1, I) + 1.0 
ENDDO 
DOJ=1, N 
Sz C(J, I) = A(J+1, I) + 2.0 
ENDDO 
ENDDO 
SLE eR BTR Ta, ARE BOPP, BAX PT RIK HK 
TEA RAE TATA TPR, BRR it IP EK RE BD ADD OR RK 
AAR EBA, RR AIA — PFE RA ER, FECES BRR 
剥离 单个 选 代 。 然 后 这 两 个 循环 的 近代 范围 就 是 对 齐 的 ， 可 以 进行 合并 : 
DO0IT=1,W 
SACL, I) = BG, I) + 1.0 
DOJ = 1, Nl 
S A(J+1, I)=B(J+1, I)+1.0 
ENDDO 
DOJ=1,N-1 
S C(J, I) = A(J+1, I) + 2.0 
ENDDO 
Sa CCN, I) = A(N+1, I) + 2.0 
ENDDO 


这 些 循 环 现在 可 以 合法 地 合并 ， 最 后 实现 A 值 的 重用 。 
不 同 于 6.2.3 节 中 讨论 的 并 行 化 情况 ， 通 过 简单 的 对 齐 可 能 导致 带 有 最 大 阔 值 的 后 向 携带 
依赖 的 数组 访问 ， 从 而 有 效 地 对 齐 两 个 循环 应 该 总 是 可 能 的 。 考 虚 下 面 的 例子 : 
DOI=1,N 
Sı ACI) = B(I)+1.0 
ENDDO 
DO I=1,N 
S: C(I) = A(I+1) + A(T) 
ENDOO 
从 语句 $5; 的 A(I+1) 到 语句 $1 的 A(I) 的 阻碍 合并 的 依赖 可 以 通过 对 齐 来 消除 。 这 不 会 产生 
任何 新 的 阻碍 合并 的 依赖 : 
00 1 = 0, N-1 
Sı A(I+1) = B(I+1) + 1.0 
ENDDO 
DO I=1, N 
S2 CI) = A(I+1) + A(T) 
ENDDO 
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这 些 循 环 可 以 通过 同样 的 方法 ， 包 括 循环 剥离 ， 得 以 合并 : 
A(1) = B(1) + 1.0 
DO I = 1, N-1 
S; A(I+1) = B(I+1) + 1.0 
Sz C(I) = ACI+1) + ACT) 
ENDDO 
CCN) = ACN41) + ACN) 425 
对 这 个 循环 作 标量 替代 产生 
tA0 = B(1) + 1.0 
A(1) = tA0 
bOI = 1, N-1 
tAl = B(I+1) + 1.0 
Si A(I+1) = tAl 
Sz C(I) = tAl + tA0 
tA0 = tAl 
ENDDO 
tAl = A(N+1) + tAO 
C(N) = tAl 
而 这 个 循环 可 以 展开 以 避免 寄存 器 复写 。 结 果 我 们 得 到 了 内 循环 中 最 优 的 寄存 器 使 用 。 

这 个 过 程 的 一 种 潜在 的 缺点 是 合并 了 的 循环 可 能 会 有 较 少 的 迭代 ， 这 样 就 减少 了 使 用 这 
种 方法 的 好 处 。 然 而 ， 正 如 上 面 的 例子 所 指出 的 ， 如 果 对 前 缀 和 后 缀 代码 也 适当 地 作 标 量 赫 
换 ， 就 不 会 损失 潜在 的 重用 。 其 原因 首先 在 于 在 开始 和 最 后 损失 的 迭代 没有 重用 的 可 能 ， 因 
为 它们 计算 的 是 错误 的 值 。 | 

我 们 现在 转向 讨论 把 这 些 想 法 形 式 化 为 针对 一 组 适合 合并 的 循环 的 对 齐 算 法 ( 见 图 8-19)。 
关键 的 想法 是 为 源 点 和 汇 点 在 不 同 循环 中 的 每 个 依赖 边 指 定 一 个 对 齐 阅 值 。 

procedure Align Loops(G) 

1/ 参数 G 是 一 组 循环 ， 其 中 包含 可 能 导致 重用 但 也 可 能 阻碍 合并 的 依赖 


/通过 下 面 的 过 程 用 一 个 小 的 常数 装 值 消除 所 有 一 致 生成 的 阻碍 合并 的 依赖 : 
令 5 是 没有 好 的 出 边 的 循环 的 集合 ， 这 里 的 好 边 定义 为 可 以 通过 对 章 删除 的 边 ; 
令 P 是 不 在 8 中 的 这 样 一 些 循环 的 集合 ，P 中 循环 的 所 有 好 的 出 边 都 有 $ 中 的 某 个 循环 作为 汇 点 ; 


while P + Ø do begin 


MPH EE ve TEER PR 
AE SAR AN RP RRR AAS TER: 可 以 为 负 。 
ROT ASTRA FER BAK: 

FAL — RRP RL, 

FAN — KARR EAN, FE 

用 1+ 上 替换 循环 归纳 变量 /的 每 个 实例 ; 


end 





end AlignLoops 


图 8-19 为 重用 的 对 齐 


定义 8.2 ”对 于 一 个 源 点 在 一 个 循环 中 而 汇 点 在 另外 一 个 循环 中 的 依赖 68， 其 对 齐 
BA Lan FP: 





0 L-E 


(a) 如 果 这 个 依赖 在 两 个 循环 合并 后 是 循环 无 关 的 ， 则 对 齐 阅 值 就 为 0。 
(b) 如 果 这 个 依赖 在 循环 合并 后 是 前 向 循环 携带 的 ， 则 对 齐 阀 值 就 是 得 到 的 携 
带 依赖 的 阐 值 取 符号 相反 数 。 
(c) 如 果 这 个 依赖 是 阻碍 合并 的 一 一 即 依赖 在 合并 后 是 后 向 循环 携带 的 一 一 对 齐 
闪 值 就 定义 为 后 向 携带 依赖 的 阅 值 。 
就 定义 的 目的 而 言 ,“ 合 并 ”意味 着 不 调整 索引 表达 式 而 将 两 个 循环 体 合并 在 一 起 ， 这 可 能 意 


味 着 对 共同 的 迭代 集 作 循环 分 段 。 
为 说 明 对 齐 阔 值 定 义 的 含义 ， 考 虑 下 面 的 一 对 循环 : 


DOI=1,N 

Si ACI) = B(I) + 1.0 
ENDDO 
DOI=1,N 

S2 C(I) = A(I+1) + A(I-1) 
ENDDO 


在 这 两 个 循环 中 ， 从 Si 到 $: 有 两 个 前 向 依赖 。 如 果 用 简单 的 方式 对 循环 进行 合并 ， 而 不 考虑 阻 
碍 合并 的 依赖 ， 这 两 个 依赖 就 会 变 成 : | 

(1) 一 个 从 51 到 5; 的 阅 值 为 1 的 前 向 携带 依赖 ， 这 是 由 于 在 语 名 5: 中 对 A(I-1) 的 引用 。 这 
样 ， 在 合并 前 ， 从 51 到 5 的 对 应 依赖 的 对 齐 阐 值 为 -1。 

(2) 一 个 从 5 到 5 之 间 的 阅 值 为 1 的 后 向 携带 的 反 依赖 ， 这 是 由 于 对 A(I+1) 的 引用 。 因 此 ， 
在 合并 前 对 应 的 前 向 依赖 的 对 齐 半 值 就 是 1。 

一 且 知 道 了 对 齐 阐 值 ， 对 章 就 很 简单 了 一 一 简单 地 用 最 大 阀 值 对 齐 每 一 个 循环 即 可 。 这 里 
对 齐 还 包括 调整 源 点 的 迭代 范围 ， 即 将 对 齐 阔 值 加 到 每 一 个 循环 索引 的 实例 中 ， 同 时 从 迁 代 
范围 的 上 界 和 下 界 中 减 去 对 齐 阐 值 。 我 们 假设 循环 已 经 正规 化 ， 执 行 方向 相同 且 步 长 为 1。 在 
上 面 的 例子 中 ， 我 们 得 到 





DO I = 0, N-1 

Si A(I+1) = BCI+1) + 1.0 
ENDDO 
DO I= 1, N 

S: C(I) = A(I+1) + A(I-1) 
ENDDO 


在 循环 剥离 之 后 ， 这 两 个 循环 可 以 很 自然 地 合并 。 
注意 即使 最 大 的 对 齐 阔 值 是 负 的 ， 这 一 算法 仍然 可 以 正确 地 工作 。 例 如 ， 


DOI=1,N 

A(I) = B(I)+ 1.0 
ENDDO 
DOI=1,N 

C(I) = A(I-1) + 2.0 
ENDDO 


A—-T HABA -1. EHR ZK, RRA 
DOI= 2, N+ 


A(I-1) = B(I-1) + 1.0 
ENDDO 
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DOI=1,N 
C(I) = A(I-1) + 2.0 
ENDDO 
it HH — AA TIERS — TAB — PRR EC RI. POE TL 
合并 : 
DOI=2,N 
A(I-1) = B(I-1) + 1.0 
ENDD0 
A(N) = B(N) + 1.0 
C(1) = A(0) + 2.0 


DO I=2,N 
C(I) = ACI-1) +2.0 
ENDDO 


因为 从 第 一 个 循环 的 前 面 被 剥 掉 的 语句 可 以 被 移 到 开头 ， 从 第 二 个 循环 的 后 面 剥 掉 的 语句 可 
以 移 到 最 后 ， 它 们 能 被 合并 为 : 
C(1) = A(0) + 2.0 
DOI= 2,N 
A(I-1) = B(I-1) + 1.0 
C(I) = A(I-1) + 2.0 
ENDDO 
A(N) = B(N) + 1.0 
这 个 算法 由 于 不 会 改变 任何 两 个 依赖 的 源 点 和 汇 点 的 顺序 ， 因 此 它 是 正确 的 。 
在 这 算法 执行 完 之 后 ， 循 环 之 间 的 所 有 依赖 的 源 点 所 在 的 选 代 的 索引 值 都 小 于 或 等 于 在 
另 一 个 循环 中 的 汇 点 的 索引 值 。 这 一 点 对 于 我 们 马上 要 介绍 的 循环 分 段 合 并 算法 的 正确 性 是 
很 重要 的 。 


8.6.3 合并 机 制 
一 旦 识别 了 一 组 要 进行 合并 的 循环 ， 并 且 使 用 8.6.2 节 中 介绍 的 方法 把 这 些 循 环 对 齐 ， 我 
们 就 需要 实际 执行 合并 操作 。 在 合并 一 组 循环 的 过 程 中 ， 我 们 必须 解决 的 首要 问题 是 : 如 何 
处 理 循环 的 上 下 界 的 不 匹配 问题 。 为 简单 起 见 ， 我 们 先 假设 所 有 的 循环 都 已 经 正规 化 ， 步 长 
为 1。 不 过 ， 我 们 不 对 上 下 界 的 值 作 任 何 假 设 。 
如 前 所 见 ， 对 齐 可 能 是 导致 可 合并 循环 的 迭代 范围 出 现 不 匹配 的 原因 之 一 。 然 而 ， 不 匹配 
可 能 因 多 种 原因 而 产生 ， 一 种 好 的 合并 算法 应 该 能 以 一 种 统一 的 方式 处 理 这 些 不 匹配 问题 。 
为 了 说 明 在 实践 中 可 能 遇 到 的 问题 ， 我 们 举 一 个 略为 复杂 的 例子 : 
L DOT =1, 1 000 
ACI) = X(I) * D 
ENDDO 
Le DOI = 2, 999 
ACI) = (AC I-1) + A(I+1))*.5 
ENDDO 
La DOI= 1, 1 000 
X(1) = A(I) * E 
ENDDO 


这 是 一 种 在 科学 计算 中 很 常见 的 松弛 计算 的 抽象 表示 形式 。 在 对 齐 之 后 变 成 
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Lı DOI = -1, 998 
A(I+2) = X(I+2) * D 
ENDDO 
L: DO I=1, 998 
A(I+1) = (ACI) +A(I+2)) * .5 
ENDDO 
Ls DOI= 1, 1 000 
X(I) = ACI) * E 
ENDDO 
ER, HALAS ST. LEA MEREAHR EAR ERE. AAAS I 
用 仅仅 因 输 入 依赖 而 相关 联 ， 所 以 这 不 是 必要 条 件 。 我 们 可 以 把 Ls 中 的 赋值 和 Ls 中 的 使 用 对 齐 
并 且 仍 然 是 正确 的 。 然 而 ,我们 将 严格 地 执行 图 8-19 所 给 出 的 算法 。 对 齐 后 的 三 个 循环 的 迭 
代 范 围 如 图 8-20 图 示 。 
图 8-21 显 示 合 并 后 的 迭代 范围 。 这 里 的 循环 Li 已 经 被 分 裂 成 两 个 循环 : 包含 两 个 迭代 的 
Lias 和 包含 998 个 挝 代 的 Le。 同样 ，L: 已 经 被 分 裂 成 包含 998 个 迭代 的 La 和 包含 2 个 和 迭代 的 Lo。 
最 后 ， 循环 Lt， L: 和 La 被 合并 成 一 个 循环 。 


Li -1 998 
Lia 


c? Lip ben Laa 1 998 
l 
430 图 8-20 失 配 的 先 代 范围 图 8-21 合并 后 失 配 的 迭代 范围 
最 终 我 们 得 到 的 代码 如 下 : 


La DOT=-1, 0 
A(I+2) = X(1+2) * D 
ENDDO 
Ly; DOT =1, 998 
A(I+2) = X(1+2) * D 
ACI+1) = (ACI) + A(I+2)) * .5 
X(I) = ACI) * E 
ENDDO 
La DO I = 999, 1 000 
X(I) = ACI) * E 
ENDDO 


在 标量 替换 后 ， 中 间 的 循环 变 成 
tAO = A(T) 
tAl = ACI+1) 
Lizs DO I = 1, 998 
tA2 = X(I+1) * D 
A(I+2) = tA2 
tAl = (tAO+tA2) * .5 
A(I+1) = tAl 
X(I) = tAO*E 
tA0 = tAl 
ENDDO 
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如 果 对 La 和 La 也 应 用 标量 替换 ， 展 开 后 的 结 末 是 


tAO = X(1) * D 
A(1) = tA0 
tAl = X(2) * D 
A(1) = tAl = A(I+1) 
Lies DO I = 1, 998, 2 
tA2 = X(I+2) * D 


A(I+2) = tA2 
tAl = (tAO+tA2) * .5 
A(I+1) = tAl 
X(I) = tAO * E 
tA0 = X(I+3) * D 
A(I+3) = tad 
tA2 = (tAl+tA0) * .5 ` 
A(1+2) = ta2 
X(1) = tAl * E 

ENDDO 


X(999) = tAl * E 
X(1, 000) = tad * E 
这 个 版 本 得 到 了 循环 的 最 优 寄存 器 重用 。 在 标量 替换 后 ， 比 起 简单 的 版 本 ， 节 省 大 约 1/3 的 内 
存 操作 。 
我 们 现在 介绍 一 种 通用 的 算法 ， 可 用 于 合并 已 知 选 代 范 围 不 匹配 的 一 组 循环 。 基 本 的 思 
想 是 : 对 下 界 按照 非 降序 顺序 {Z, Lo, s La HEP. 对 上 界 按 照 非 降序 顺序 {Hi, A, … Hn EE 
输出 下 面 三 组 循环 : 
(1) 下 界 依 次 为 Li ，Lz，…， 上 -1 和 上 界 依次 为 [一 1，Ls 一 1，.…，L, 一 1 的 一 组 循环 ， 其 
PERAL- 1 的 输出 循环 的 循环 体 就 是 下 界 依次 为 L!，L2，.…，I-! 的 输入 循环 的 循环 体 。 
(2) 下 界 为 L: 和 上 界 为 及 的 所 有 的 循环 体 顺 序 合并 成 中 央 循 环 。 
(3) FAH +1, H+2, ¢, H, MERAH, Hs, =, HAARR, Hp, ER 
AHAA ATERRAR E ESA, Heri coo HAERA ERTER ER 
图 8-22 中 的 算法 使 用 图 8-23 中 介绍 的 通用 过 程 ， 产 生 一 列 前 置 循环 和 一 列 后 置 循 环 。 


procedure FuseLoops(n, C) 
l n 是 要 合并 的 循环 的 个 数 
1/ Cl1:n] 是 该 循环 集合 ， 按 其 输出 次 顺序 排列 


令 L[1:mJ 是 循环 下 界 的 集合 ， 按 硕 序 排列 ; 
令 H[1:n] 是 循环 上 界 的 集合 ， 按 闫 序 排列 ; 
令 B[l:n] 循 环 体 的 集合 ， 按 顺序 排列 ; 


l 首先 确定 两 个 索引 数组 : iLi: fiH l:n] 
U iL 岂 第 i 小 的 下 界 所 对 应 的 循环 的 索引 
H iHL1:n] 是 按 上 界 非 降序 排序 的 循环 的 顷 序 


将 下 界 L[1:n] 排 序 产 生 iL[1:n]; 
将 上 界 H[1:n] 排 序 产 生 iH[1:n]; 





图 8-22 合并 一 组 循环 的 过 程 
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indexset := {lastindex}; doingPreloops := true; 


GeneratePreOrPostLoops(doingPreloops, iL, L, indexset); 


1/ 现在 生成 中 央 合并 循环 

lastindex :=iL{n]; thisindex := iH[!1]; 

if L{lastindex] = Hlthisindex] then // 没有 包围 的 循 坏 
for j := 1 ton do/£ BIJ}; 

else if L[lastindex] < H[thisindex] then begin 


生成 DO i= L{lastindex], H[thisindex]; 
for j :=1 to n do/£ RBU]; 
+E AKENDDO; 

end 


else;// ZIR, ALLE 


indexset := indexset — {lastindex}; 
GeneratePreOrPostLoops(7-doingPreloops, iH, H, indexset); 


end FuseLoops 








图 8-22 ($k) 


procedure GeneratePreOrPostLoops(low, iX, X, indexset) 


// 如 果 我 们 生成 前 置 循环 则 iow 是 true， 如 果 生 成 后 置 循环 则 是 false 
1/ 如 果 我 们 生成 前 置 循 环 则 过 = 江 ， 否 则 过 = 过 
1 如 果 我 们 生成 前 置 循 环 则 X= 工 ， 否 则 X= 五 


lastindex : = iX[1]; 
for i :=2 to n do begin 
thisindex : = iXļ(i}; 
if X[lastindex] = X[thisindex] — 1 then // 无 包围 循环 
for j :=1 to n do if j E indexset then# XBL); 
else if X[lastindex] < X[thisindex}] — 1 then begin 


if low 


then 生 成 DO i= X[lastindex], X[thisindex] — 1; 
else 生 成 DO i = X[lastindex] + 1, X[thisindex]; 
for j :=1 ton do if j E€ indexset then 生 成 BU]; 
生成 ENDDO 
end 


else; // 空 循环 ， 不 做 工作 


lastindex : = thisindex; 

if low 
then indexset : = indexset U {thisindex}; 
else indexset : = indexset — {thisindex}; 


end GeneratePreOrPostLoops 





图 8-23 生成 前 置 循环 和 后 置 循环 的 过 程 


这 一 算法 的 基本 想法 是 对 下 界 排 序 ， 产 生 一 列 按 下 界 的 递增 顺序 排列 的 前 置 循环 ， 每 一 
个 循环 包含 合并 组 中 所 有 上 下 界 与 生成 的 前 置 循环 的 上 下 界 有 交 的 循环 体 。 每 一 个 这 样 的 循 
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环 都 比 前 面 的 循环 包含 更 多 的 语句 。 在 生成 中 央 合并 循环 之 后 ， 算 法 颠倒 处 理 过 程 ， 产 生 一 
列 后 置 循环 ， 其 中 包含 越 来 越 少 的 中 央 合 并 循环 里 的 语句 。 

正确 性 因为 对 齐 的 假定 ， 这 种 算法 产生 正确 的 代码 。 在 对 齐 后 ， 对 于 每 一 个 源 点 在 循环 
的 ; 选 代 中 的 前 向 循环 跨越 依赖 ， 其 汇 点 必 在 某 索 引 大 于 ;的 迭代 中。 图 8-22 中 的 合并 算法 把 
后 面 的 上 界 为 N 的 循环 的 迭代 移 到 前 面 循环 的 下 标 不 小 于 N+ 1 的 迭代 之 前 。 值 得 注意 的 是 这 
种 移动 可 能 会 破坏 依赖 ， 但 是 对 齐 的 假定 可 以 保证 这 种 情况 不 会 发 生 。 在 考虑 到 对 齐 删除 所 
有 的 阻碍 合并 依赖 这 一 事实 ， 我 们 就 得 到 了 这 一 过 程 的 正确 性 。 

尽管 图 8-22 中 的 算法 要 求 上 下 界 是 常数 ， 但 它 实 际 上 适用 于 任何 在 编译 时 循环 的 上 下 界 
的 相对 顺序 已 知 的 循环 组 。 因此， 可 以 用 这 种 算法 来 处 理 下 面 这 种 带 有 符号 上 王 界 的 循环 : 


L DOIT=L+3, N45 
L DOIT=L,N- 1 


ty DOI=L-2, N41 
B3 
ENDDO 
L DOT=L+1, N42 
B4 
ENDDO 
尽管 所 有 的 循环 都 有 符号 化 的 上 下 界 ， 仍 可 容易 地 对 上 下 界 按 升 序 排序 。 因 此 仍然 可 以 使 用 
同样 的 算法 。 
然而 ， 如 果 不 能 确定 符号 化 的 上 界 和 下 界 之 闻 的 关系 ， 就 需要 某 种 形式 的 动态 代码 选择 来 
解决 这 一 问题 。 这 可 能 涉及 到 根据 不 同 的 上 下 界 顺 序 来 生成 代码 ， 并 在 顺序 已 知 后 选择 正确 的 
代码 。 既 然 N 个 循环 可 能 有 NIL 种 顺序 ， 那么 这 种 方法 在 时 间 和 代码 大 小 方面 的 代价 可 能 要 大 
得 多 。 在 最 坏 的 情况 下 ， 需 要 O(N log N) 次 运行 时 测试 ， 以 及 生成 0(2”) 种 可 选 的 代码 序列 。 


8.6.4 加 权 循 环 合 并 算法 

既然 我 们 有 了 用 来 对 齐 和 合并 循环 组 的 算法 ， 我 们 就 需要 一 个 选择 适合 合并 的 循环 组 的 
过 程 。 首 先 ， 我 们 考虑 在 循环 媒 套 树 的 某 一 层 上 合并 一 组 循环 的 问题 。 从 这 点 来 说 ， 要 考虑 
的 程序 区 域 看 起 来 就 像 一 组 循环 和 单个 语句 的 混合 。 

一 层 合并 算法 的 目的 是 利用 程序 中 语句 之 间 的 依赖 来 选择 可 以 合法 地 合并 的 一 组 循环 。 
在 设计 这 样 的 算法 时 ， 我 们 的 目标 是 通过 合并 得 到 最 大 限度 的 重用 。 

为 了 实现 这 个 目标 ， 我 们 将 从 一 个 图 开始 ， 在 这 个 图 中 ， 顶 点 代表 循环 ， 边 代表 循环 之 
间 的 依赖 (如 果 在 两 个 循环 体 的 语句 之 间 存 在 依赖 ， 这 两 个 循环 之 间 就 存在 依赖 ) 。 我 们 可 以 
应 用 6.2.5 节 中 介绍 的 带 类 型 的 合并 算法 来 解决 这 个 问题 。 但 因为 那个 算法 为 所 有 依赖 边 赋 相 
同 的 权 ， 所 以 它 不 适用 于 不 同 的 合并 选择 有 不 同 利益 的 情形 。 在 合并 循环 以 最 大 限度 地 重用 
数据 的 过 程 中 ， 每 一 个 依赖 有 一 个 不 同 的 权 值 反映 由 于 合并 对 应 于 两 个 端点 的 循环 而 获得 的 
重用 的 数量 。 

例如 ， 两 种 不 同 的 合并 选择 可 能 有 不 同 的 迭代 范围 : 


L DOI= 1, 1 000 





0 


ACI) = BCI) + X(I) 
ENDDO 
lL, DOI= 1, 1 000 
C(I) = ACI) + YD) 
ENDDO 
Z = FOO(A(1:1 000)) 
Ls DOI= 1, 500 
A(I) = C(1) +Z 
ENDDO 
在 这 个 例子 中 ， 不 能 与 任何 循环 合并 的 语句 必须 在 循环 Li 之 后 和 L; 之 前 执行 ， 因 为 从 循环 Li 
到 语句 $ 之 间 有 一 个 真 依赖 ， 从 $5 到 Ls 之 间 也 有 一 个 真 依赖 。 
因此 ，Li 和 Li; 不 能 被 合并 。 同 样 ， 因 为 相似 的 依赖 模式 ， 循 
环 L: 必 须 在 循环 L;: 和 L: 之 间 执 行 。 然 而 ， 既 然 在 L: 和 S$ 之 间 只 
有 一 个 输入 依赖 ， 那 么 它们 就 可 以 以 任何 顺序 出 现 。 因 此 ， 
循环 L: 可 以 与 Li 合并 (如 果 它 在 $ 之 前 ) ， 也 可 以 与 L; 合 并 
(如 果 它 被 移 到 5 之 后 )。 图 8-24 给 出 这 个 循环 的 依赖 模式 。 
注意 我 们 用 一 条 无 向 边 表示 语句 Lx: 和 $ 之 间 的 输入 依赖 。 
图 8-24 很 清楚 地 说 明了 L; 不 可 以 与 tL1 和 Ls 两 者 合并 ， 
为 这 会 通过 语句 5 在 依赖 图 中 引入 一 个 环 。 所 以 必须 选择 合 
并 的 对 象 。 这 里 , 倾向 于 选择 有 最 大 迭代 范围 的 循环 作 合 并 : 





Li 和 Lz。 
对 这 个 例子 稍 作 改 动 ， 可 以 说 明 不 同 的 合并 可 能 得 到 不 
同 的 值 的 另 一 种 方式 : 
Lı DOT =1, 1 000 图 8-24 加 权 依赖 的 合并 例子 
A(I) = B(I) + X(I) 
ENDDO 


t: DO TI=1, 1 000 
C(I) = ACI) + Y(T) 
ENDDO 
Z = FOO(A(1:1 000)) 
L DOI= 1, 1 000 
ACI) = C(I + 500) + Z 
ENDDO 
在 这 种 情况 下 ,循环 范围 是 相同 的 ， 但 是 当 Lz 与 1 对 齐 时 ， 可 以 重用 的 选 代 就 只 有 500 个 。 
为 了 构建 一 种 解决 加 权 合并 问题 的 算法 ， 我 们 必须 为 程序 中 每 一 个 循环 跨越 依赖 4 分 配 一 
个 权 值 W(d， 当 依赖 的 源 点 和 汇 点 位 于 同一 循环 的 同一 选 代 中 时 ， 用 这 个 权 值 来 计算 取得 的 利 
益 。 换 言 之 ， 如 果 对 含有 源 点 和 汇 点 的 循环 作 合并 ， 我 们 可 以 在 端点 仍 保留 不 同 循环 的 程序 版 
本 中 节省 WCd) 个 访问 存储 器 操作 ( 取 数 和 存 数 )。 图 8-24 中 的 边 上 所 标的 数字 代表 这 些 权 值 。 
35] 。 ”加 权 合 并 问题 
436| 假设 我 们 有 一 组 加 权 的 依赖 边 和 一 组 可 合并 的 循环 ， 以 及 和 一 组 不 能 与 任何 循环 合并 的 
语句 。 在 下 面 的 讨论 中 ， 把 这 些 不 可 合并 的 语句 标记 为 坏 项 点 。 我 们 在 较 早 的 例子 中 调用 函 
数 F00 的 语句 就 是 一 个 坏 顶 点 。 另 外 ， 可 能 存在 一 些 边 ， 沿 着 这 些 边 不 能 进行 合并 ， 这 样 的 边 
称 为 坏 边 。 例如， 在 6.2.5 节 中 定义 的 阻 得 合并 的 依赖 边 就 是 一 条 坏 边 。 尽 管 这 些 依赖 对 存储 
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层次 结构 管理 并 不 重要 ， 因 为 可 以 通过 对 齐 消除 这 些 边 ， 但 是 为 了 一 般 性 ， 我 们 还 是 将 其 包 
含 在 问题 的 模型 中 。 

先 将 循环 合并 归结 为 一 个 抽象 的 问题 。 我 们 从 定义 一 种 包含 有 向 边 和 无 向 边 的 特殊 的 图 
开始 。 在 我 们 的 问题 中 ， 用 无 向 边 来 表示 输入 依赖 。 


定义 8.3 混合 有 向 图 被 定义 为 一 个 三 元 组 
M=(V, Es, E,) 
其 中 (V, E) 构成 一 个 有 向 图 ，E, 表 示 在 V 中 的 顶点 之 间 的 一 组 无 向 边 。 按 照 约定 ,一 
对 顶点 不 可 以 同时 用 有 向 边 和 无 向 边 连接 ， 即 ENE, =O. 


定义 8.4 ”如 果 Gs=(V, E) 是 无 环 的 ， 则 称 混合 有 向 图 为 无 环 的 。 如 果 从 v 到 w 有 
一 条 有 向 边 ， 即 (v, w)EEs， 则 顶点 w 称 为 顶点 v 的 后 继 结 点 。 在 这 种 情况 下 ， 顶 点 v 称 
为 顶点 w 的 前 趋 结 点 。 如 果 在 两 个 顶点 之 间 有 一 条 无 向 边 ， 则 顶点 v 称 为 顶点 w 的 相 邻 
结 点 。 从 上 面 注意 到 顶点 * 的 相 邻 结 点 不 可 能 又 是 "的 后 继 结 点 或 前 驱 结 点 。 


定义 8.5 ”给 定 一 个 无 环 混合 有 向 图 林 = (Y, Ea E,)， 一 个 定义 在 EsUE, 的 边 上 的 
权 函 数 W， 一 组 不 能 与 Y 中 的 其 他 任何 顶点 合并 的 坏 项 点 BCY， 和 一 组 阻碍 其 端点 合 
并 的 坏 边 E, CE4， 加 权 逢 环 合并 问题 就 是 寻找 一 组 顶点 集合 {V1i, Vo …, Vit, EA 
下 成 立 : 
(1) 该 集合 包含 图 中 的 所 有 顶点 ， 即 LUJY -Y 。 


(2) 这 些 顶点 集合 构成 V 的 划分 ， 即 Vi,j, 1<i,j<n, ViNV) 4¥O7i=j. 

(3) 每 一 组 要 么 不 包含 坏 顶 点 ， 要 么 仅 包含 一 个 坏 顶 点 ， 即 Vi, 1 <i<n, ((ViNB=O)v(Vi 
={b},b€B)). 

(4) 对 于 任何 ;，V 中 的 两 顶点 之 间 不 存在 经 过 不 在 Vi 中 顶点 的 有 向 路 径 〈 所 有 的 边 都 属 
FE). 

(5) 如 果 所 有 的 顶点 集 V 均 被 归 约 为 单个 项 点， 其 自然 边 也 相应 地 归 约 ， 则 得 到 的 图 是 无 
环 的 。 

(6) 对 于 任何 i， 在 Vi 的 两 个 顶点 之 间 没 有 坯 边 。 

(7) 对 于 同一 顶点 集 的 顶点 之 间 的 边 的 总 权 值 ， 按 所 有 的 顶点 集 求 和 ， 所 得 结果 最 大 。 

注意 ， 条 件 (3) 意味 着 坏 顶 点 不 能 与 正常 的 顶点 或 者 其 他 坏 顶 点 合并 。 


快速 的 贪 禁 加 权 合并 

要 找 出 加 权 合 并 问题 的 最 优 解 已 证 明 是 NP 难题 [176], 因此 如 果 我 们 想 要 解 实 际 的 大 问题 ， 
就 需要 采用 启发 式 的 方法 。 一 种 解决 这 个 问题 的 高 效 启发 式 方法 是 贪 蔚 法， 该 方法 迭代 地 选 
择 最 高 权 值 的 边 并 将 边 的 端点 以 及 在 端点 之 间 的 路 径 上 的 所 有 顶点 合并 到 同一 顶点 组 里 。 贪 
美加 权 合 并 问题 就 是 要 找到 一 种 贪 禁 的 启发 式 方 法 会 给 出 的 解 。 

在 本 节 的 其 余部 分 ， 我 们 将 介绍 一 种 由 Kennedy[171] 提 出 的 在 O(EV+ V2 时 间 内 解决 这 个 
问题 的 算法 。 因 为 这 一 算法 的 实现 很 复杂 且 包 含 许多 细节 ， 将 仅 介绍 它 的 基本 思想 。 我 们 先 
介绍 它 的 实现 的 要 点 以 说 明 与 算法 有 关 的 一 些 问题 。 这 一 算法 可 以 归纳 为 下 面 6 个 步骤 : 

(1) 初始 化 所 有 量 并 计算 初始 的 Successor，Predecessor，and neighbor。 这 可 以 在 O(V+ 
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E) 时 间 内 实现 。 

(2) 对 有 向 无 环 图 中 的 顶点 作 拓 扑 排序 。 这 需要 O(Es+ V) 时 间 。 

(3) 处 理 V 中 的 顶点 ， 对 每 一 个 顶点 计算 集合 pathFrom[v]， 该 集合 包含 从 顶点 v 开 始 的 路 
径 可 以 到 达 的 所 有 顶点 ， 以 及 pathFrom[v] 的 子 集 badPathFrom[v]， 该 集合 包含 从 v 开 始 的 一 条 
路 径 可 以 到 达 的 顶点 的 集合 ， 路 径 包含 一 个 坏 顶 点 或 者 一 条 坏 边 。 这 一 步骤 可 以 在 O(Es+ V) 
集合 操作 的 时 间 中 完成 ， 其 中 每 一 集合 操作 需要 CO(V) 的 时 间 。 

(4) 分 别 逆 转 集 合 pathFrom 和 badPathFrom， 得 到 图 中 的 每 一 个 顶点 v 的 pathTo[v] 和 
badPathTo[v] 集 合 。pathTo[v] 集 合 包含 有 一 条 路 径 到 v 的 那些 顶点 ; badPathTo[v] 集 合 包含 通过 
一 条 坏 的 路 径 可 以 到 达 v 的 那些 顶点 。 这 可 以 在 O(V?) 时 间 内 完成 。 

(5) 把 E= EsUE, 中 的 边 按 权 值 插入 优先 队列 edgeHeap。 如 果 优 先 队列 用 堆 实 现 ， 那 么 需 
要 O(E log E) 时 间 。 注 意 ， 既 然 log E<log V=2 log V， 那 么 这 一 步 的 复杂 度 可 以 改写 为 O(E 
log V). 

(6) 当 edgeHeap 非 空 时 ， 从 中 选 出 权重 最 大 的 边 v, w) 并 且 将 其 删 去 。 如 果 w E 
badPathFrom[v]， 就 不 做 合并 一 一 重复 步 又 6。 否 则 ， 按 下 面 的 步 又 执行 : 

a) 将 v"，w 及 其 间 的 有 向 路 径 上 的 每 一 条 边 拥 缩 为 一 个 结 点 。 

b) 在 每 一 次 把 一 个 顶点 十 缩 到 vy 之后， 调整 集合 pathFrom，badPathFrom，pathTo 和 
badPathTo 来 反映 新 的 图 。 就 是 说 ,能 到 达 复 合 结 点 中 一 个 顶点 的 所 有 顶点 都 能 到 达 复 合 结 点 ， 
同时 复合 结 点 可 以 到 达 复 合 结 点 中 一 个 顶点 能 到 达 的 所 有 顶点 。 

c) 在 每 一 次 顶点 拥 缩 之 后 ， 为 复合 顶点 重新 计算 后 继 、 前 驱 和 相 邻 结 点 集合 ， 并 重新 计 
算 复 合 顶点 和 其 他 相应 顶点 之 间 的 权 值 。 

图 8-25 中 给 出 这 个 算法 的 一 个 更 详细 的 版 本 。 注 意 ， 步 又 1 到 5 能 在 O(EV+ 站 +E log V= 
O(EV+ W) 时 间 内 完成 。 如 果 执 行 步 又 6 的 所 有 时 间 也 能 够 被 限制 在 这 一 渐 近 界 就 好 了 。 为 了 
搞 清 这 是 否 可 能 ， 我 们 需要 更 加 仔细 地 检查 这 些 步 又 的 每 一 小 步 。 





procedure WeightedFusion(M, B, W) 
1/ M=(V, Ea, Ew) 是 一 个 无 环 混合 有 向 向 图 
I B 是 坏 顶 点 的 集合 
1/ WERKE 
[I pathFrom[v] 包 含 所 有 从 v 可 达 的 顶点 ; 
I! badPathFrom[v] 包 含 所 有 从 v 沿 一 条 包含 一 个 坏 顶 点 的 路 径 可 达 的 顶点 ; 
li edgeHeap 是 边 的 一 个 优先 队列 
: InitializeGraph(V, E4, E,); 


用 有 向 边 对 顶点 作 拓 扑 排序 ; 
edgeHeap : =Ø; 
: InitializePathInfo(V, edgeHeap); 


: while edgeHeap + Ø do begin 
从 edgeHeap 中 选择 并 删除 权重 最 重 的 边 e = (v, w); 
if v € pathFrom[w] then 交 换 v 和 wi; 
if w © badPathFrom[v] then 
continue L; // 不 能 或 不 必 合 并 





图 8-25 贪 禁 加 权 合 并 
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1 否则 合并 v, w 以 及 其 间 的 顶点 
worklist: =O; R:=Ø; 1/ R 是 圳 缩 区 域 
for each x € successors[v] do 

if w € pathFrom|x] then worklist : = worklist U {x}; 
if worklist=@ then 加 w 到 worklist;，/1/ (v, w) 为 无 向 边 
while worklist + Ø do begin 

从 worklist 中 提取 一 个 顶点 ; R :=RU {x}; 


if x+ w then 


for each y E€ successors[x] do begin 
if w € pathFrom[y] and y ¢ worklist.ever then 
worklist : = worklist U {y}; 


end 
end L; 
Collapse(v, R); 1 更 新 所 有 的 数据 结构 
end L, 
end WeightedFusion 





图 8-25 (#8) 


初始 化 ”图 8-26 和 8-27 给 出 初始 化 例 程 的 代码 。 注 意 我 们 不 仅 要 计算 pathFrom 集 和 
padPathFrom 集 ， 还 要 计算 反 相 集 pathTo 和 badPathTo， 这 里 x E pathTo[y] 当 且 仅 当 y E 
pathFrom[x]。 这 些 集合 对 于 在 贡 缩 后 执行 的 更 新 操作 是 必需 的 。 


procedure InitializeGraph(V, Eq, E.) 
for each v € V do begin 
successors[v] :=@; 


predecessors[v] :=@; 


neighbors[v] :=@; 


end 


for each (x, y) E E, do 
successors[x] := successors[x] U {y}; 
predecessors[y] : = predecessors[y] U {x}; 
for each (x, y) E€ E, do begin 
neighbors[x] := neighbors[x] U {y}; 
neighbors[y] : = neighbors[y] U {x}; 
end 





end InitializeGraph 


图 8-26 初始 化 Predecessors Successors#lNeighbors 


RMA MAA BRE TRS v, w)， 贪 禁 加 权 合 并 算法 就 必须 执行 
南 缩 操作 。 图 8-25 中 的 循环 [和 LL; 的 代码 确定 必须 进行 韧 缩 的 区 域 R。 为 了 作 到 这 一 点 ， 它 必 
须 标 识 从 * 到 w 的 路 径 上 的 所 有 顶点 。 正 如 我 们 在 图 8-25 中 的 算法 所 见 到 的 ， 这 将 由 下 面 的 步 
EER: 

(1) Sworklist t&v A kx, 1X hw E pathFrom[x]. 

(2) 4worklistdiežkt, HERAT ABR, FER SRR. ES, HE 
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PSF 


fiw © pathFrom[y] 的 所 有 x 的 后 继 y 添 加 到 worklist， 除 非 这 些 顶 点 中 有 某 些 已 被 加 入 到 RR 中。 
(这 里 注意 worklist.ever 的 成 员 测 试 的 实现 ， 它 用 于 判断 一 个 顶点 是 否 曾 在 worklist 中 ， 这 将 和 


下 面 的 快速 集合 操作 的 实现 一 并 介绍 。) 


procedure InitializePathInfo(V, edgeHeap) 
/是 合并 发 生 的 顶点 
I x 是 当前 被 合并 的 顶点 。 
L: for each v E Vy 按 逆 拓 扑 序 do begin 
reply] :=v; 
pathFromlv} := {v}; 


if v © B then badPathFromly] := {v} else badPathFrom{v] : =Ø; 


for each w E successors{v] do begin 
pathFrom|v] := pathFrom{v] U pathFrom[w]; 
badPathFrom[v] : = badPathFrom[v] U badPathFrom[w]); 
if (v, w) 是 一 条 坏 边 或 w € B then 
badPathFromlv] := badPathFrom[v] U pathFrom[w); 


将 v, w) 加 入 edgeHeap 中 ; 
end 


for each w E€ neighbors[v] do 
if w E€ pathFrom[v] then begin 
从 neighbors[v] 中 删除 w; 
从 neighbors[w] 中 删除 v; 
successors[v] := successors[v] U {w}; 
end 
将 (v, w) 加 入 edgeHeap 中 ; 
end 
反 转 pathFrom 计 算 pathTo; 
反 转 badPathFrom 计 算 badPathTo; 
end JnitializePathLnfo 





图 8-27 初始 化 Path 集 合 


如 果 我 们 把 代价 分 为 雪 缩 区 域 R 内 部 的 边 的 遍历 和 到 R 外 的 顶点 的 边 的 遍历 ， 就 容易 理解 
整个 过 程 的 复杂 度 。 假 设 我 们 把 遍历 边 (x, y)( 如果 y 属 于 R) 的 代价 计 人 项 点 y。 由 于 每 个 顶 
点 最 多 只 能 被 合并 到 另 一 个 顶点 一 次 ， 这 种 边 的 遍历 的 总 代价 对 整个 程序 来 说 就 是 O(V)。 接 
下 来 考虑 那些 是 荐 缩 区 域 中 的 某 些 结 点 的 后 继而 自身 不 在 那个 区 域 中 的 顶点 y。 这 样 的 顶点 变 
为 由 v 表 示 的 复合 区 域 的 后 继 。 如 果 我 们 将 遍历 自 x 到 外 部 顶点 y 的 代价 记 在 边 (x, y) 上 ， 则 这 
个 算法 过 程 中 一 条 边 上 的 累计 代价 为 0(V)。 因 此 这 个 算法 的 执行 过 程 中 外 部 边 的 遍历 的 总 代 


价 是 O(EV)。 


最 后 ， 对 区 域 R 调 用 图 8-28 所 示 的 过 程 Collapse。 它 将 R 中 的 所 有 顶点 合并 为 源 顶点 v。 这 


可 以 通过 执行 下 面 的 步 又 来 完成 : 
(1) 仅 用 韦 缩 区 域内 部 的 边 对 顶点 作 拓扑 排序 。 
(2) 按 拓扑 顺序 对 每 个 顶点 执行 下 列 步 又 : 
a) 将 + 合并 到 »; 


b) 对 整个 图 ， 重 建 pathFrom，badPathFrom，pathTo 和 badPathTo 集 。 注 意 ， 如 果 某 个 顶 





AATA E GRA 301 


点 u 到 达 x 而 v 到 达 另 一 个 顶点 z:， 那 么 ， 在 把 x 合并 到 v 之 后 wu 到达 z。 
c) 通过 恰当 地 把 successors[x]，predecessors[x] 和 neighbors[x] 含 并 到 successors[v]， 
predecessors[v] 和 neighbors[v] ， 为 复合 结 点 v 创 建新 的 后 继 、 前 驱 和 相 邻 结 点 列表 。 


procedure Collapse(v, R) 
对 R 按 R U fy 中 的 边 作 拓扑 排序 ; 

Ly: for each x © R 按 拓扑 序 do begin 
// 将 x 合并 到 v 中 ; 
rep[x] : =v; 
// 更 新 pathFrom 和 pathTo 集 
UpdatePathInfo(v, x); 
// 更 新 图 的 表示 
UpdateSuccessors(v, x, R); 
UpdatePredecessors(v, x, R); 
UpdateNeighbors(v, x, R); 
1/ 删除 顶点 x 


删除 x, predecessors[x], successors[x], 
neighbors{x), pathFrom{x}, padPatPFromfx]， 
path To[x] 和 badPath To[x); 
从 successors[v] 删 除 x; 
end L, 
end Collapse 





图 8-28 ASR RA PTS 


拓扑 排序 所 需要 的 时 间 与 R 中 的 顶点 和 边 的 个 数 成 线性 关系 ， 所 以 ， 对 整个 程序 而 言 ， 代 价 的 
LFAOE+ V). 

— ATU REE SR BTA BREE AV-1, PL, BAB ATT Bl 
上 土 限 的 技巧 是 限定 对 更 新 步骤 (2) b) 和 (2) c) 的 工作 。 为 讨论 方便 起 见 ， 我 们 按 相反 的 
顺序 考虑 这 些 步骤 。 

更 新 Predecessor，Successor 和 Neighbor ， 首先， 我 们 考虑 更 新 Successor 的 代价 。 图 8- 
29 中 是 执行 这 个 操作 的 代码 。 对 南 缩 到 另 一 个 顶点 "的 每 一 个 顶点 x 调 用 一 次 这 个 过 程 。 因 此 ， 
在 这 个 算法 的 整个 执行 过 程 中 ， 这 个 过 程 至 多 被 调用 O(V) 次 。 每 遇 到 这 样 的 顶点 ， 这 个 过 程 
就 会 访问 它 的 后 继 结 点 。 由 于 没有 顶点 会 被 姐 缩 一 次 以 上 ， 所 以 访问 Successor 结 点 的 总 次 数 
就 以 E 为 上 界 。 除 了 edgeHeap 上 的 reheap 操 作 需 要 lg E=lg VY 的 时 间 外 ， 访 问 中 的 所 有 其 他 操 
作 都 只 需 常数 时 间 。 

必须 处 理 的 一 个 难点 是 对 x 到 y 的 边 进行 的 不 是 删除 操作 而 是 移动 操作 的 情形 ， 即 该 边 现 
在 连接 vy 和 y。 这 是 UpdateSuccessors 中 的 if 语 旬 的 第 三 种 情况 。 如 果 我 们 不 小 心 ， 在 执行 调 缩 
操作 的 时 候 就 可 能 对 同一 条 边 访问 多 次 。 然 而 ， 在 解决 这 个 问题 时 ， 我 们 需要 注意 第 三 种 情 
况 不 重 计 权 值 ， 也 不 需要 重 堆 堆栈 。 因 此 ，if 语 句 中 的 第 三 种 情况 的 总 代价 最 多 为 O(EV)。 其 
他 两 种 情况 的 操作 代价 可 以 归结 到 被 删除 的 边 ， 这 样 总 代价 将 以 O(E log V) 为 界 。 

因此 ， 与 所 有 UpdateSuccessors 的 调用 有 关 的 代价 是 O(EV 十 E log V+ V)=O(EV). Update 
Predecessors 和 和 UpdateNeighbors 在 结构 和 分 析 方 法 上 [172] 是 类 似 的 。 

更 新 路 径 信 息 ”讨论 坪 缩 后 ， 现 在 我 们 来 讨论 更 新 pathFrom，badPathFrom，pathTo 和 
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badPathTo# [HR (2) c) ] 的 问题 。 这 一 步 必须 在 后 继 结 点 、 前 驱 结 点 和 相 邻 结 点 集合 更 新 
之 前 执行 ， 因 为 更 新 过 程 使 用 旧 的 关系 。 


procedure UpdateSuccessors(v, x) 
1/v 是 合并 发 生 的 顶点 
1/ x 是 当前 被 合并 的 顶点 。 
U 令 x 的 后 继 为 v 的 后 继 ， 重 计 权 值 


for each y E successorslx] do begin 


if y E successors[v] then begin 
Wy, y):= Wo, y)+ Wax, y); VW 加 入 删除 的 边 (x, y) 
重 堆 堆栈 edgeHeap; 
从 edgeHeap 中 删除 (x, y) 并 重 堆 堆栈 ; 

end 

else if y E neighbors{v] then begin 


successors[v] :=successors[v] U {y}; 
Wo, y) := Wev, y) + Wo, y); V 加 入 删除 的 边 (x, y) 
重 堆 堆栈 edgeHeap; 
从 edgeHeap 中 删除 (x, y) 并 重 堆 堆 栈 ; 
从 neighbors[v] 中 删除 y; 
从 neighbors[y] 中 删除 x; 

end 

else begin // y 和 v 没 有 关系 
successors[v] := successors{v] U {y}; 
在 edgeHeap 中 用 (v, y) HR (x,y); /不 加 入 

end 

从 predecessors[y] 删 除 x; 

end 
end UpdateSuccessors 





图 8-29 更 新 后 继 结 点 


这 一 步 的 关键 难点 在 于 : 到 达 正 在 被 场 缩 到 v 的 顶点 x 的 任何 顶点 ， 现 在 可 以 通过 传递 到 
达 v 能 到 达 的 任何 顶点 。 图 8-30 说 明 这 个 问题 。 

如 果 在 每 一 次 十 缩 之 后 ， 我 们 重新 计算 pathFrom 集 ， 
则 总 共 要 O(EV2 +V) 的 时 间 ， 因 为 每 次 调用 pathFrom 计 
算 需 要 OCEV+ V’) 的 时 间 。 

为 了 减 小 执行 时 间 的 上 界 ， 我 们 必须 保证 不 做 多 余 
的 工作 。 基 本 策略 是 计算 newPathSinks， 即 自 v 可 达 而 自 
x 不 可 达 的 顶点 集合 ， 以 及 mewPatpsorrces， 即 到 达 x 而 
不 到 达 v 的 顶点 集合 。 

一 旦 有 了 这 些 集 合 ， 我 们 将 更 新 newPathSources 中 
的 所 有 顶点 的 pathFrom 集 ， 和 newPath Sinks PRIA M 
点 的 pathTo 集 。 下 面 是 完成 这 一 步骤 的 一 种 方法 : 

for each b © newPathSources do 

pathFrom(b): = pathFrom[b] U newPathSinks, 图 8-30 路 径 更 新 间 题 的 说 明 
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for each b E newPathSinks do 
path Tob]: = pathto[b] U newPath Sources; 
这 种 方法 的 问题 在 于 : 因为 在 newPathSinks U newPathSources 中 可 以 有 OQO(V) 个 顶点 ， 而 每 一 
次 集 操作 需要 OCV) 时 间 ， 所 以 这 种 方法 需要 OC(V?) 时 间 。 因 此 ， 总 的 时 间 将 以 O(Y3) AR, 
样 这 一 部 分 的 代价 就 比 这 个 算法 的 其 他 任何 部 分 都 高 。 

代价 过 高 的 一 个 原因 是 因为 我 们 可 能 做 了 一 些 不 必要 的 工作 。 既 然 只 增加 patpn7o 集 和 
pathFrom 集 的 大 小 ， 如 果 使 用 大 小 为 闫 的 位 矩 
阵 来 表示 这 些 集 ， 我 们 就 只 需要 置 位 一 次 。 这 
样 就 可 以 把 总 的 工作 量 限 制 到 O(V?)。 然 而 ， 、 
若 按 前 面 的 作法 ， 我 们 可 能 会 对 相同 的 位 置 位 新 路 径 源 点 一 > 
多 次 。 这 是 因为 如 果 在 两 个 集合 间 有 一 条 绕 过 
v 和 x 的 边 ， 则 newPathSources 中 的 顶点 可 能 已 
经 到 达 newPathSinks 中 的 顶点 ( 见 图 8-31)。 

为 避免 这 些 元 余 的 工作 ， 我 们 将 通过 new- a 
PathSources 中 的 顶点 后 退 ， 小 心 不 要 置 位 
pathTo 位 超过 一 次 。 同 样 地 ， 我 们 将 向 下 移 过 
newPathSinks 以 置 位 pathFrom 位 至 多 一 次 。 关 
键 的 过 程 是 图 8-32 中 所 示 的 UpdateSlice。 / 

注意 ， 设 计 UpdateSlice 为 在 不 同 的 调用 中 / 
分 别 更 新 patpFrom 和 padPatpFrom 信 息 ， 方 法 
是 将 不 同 的 参数 传递 到 pathFrom。 此 外 ， 通 过 、 
改变 cesors 和 pcesors 的 定义 (逆转 图 和 大 多 数 图 8-31 解决 路 径 更 新 问题 
集合 的 角色 )， 可 调用 UpdateSlice 计 算 pathTo 
和 badPathTo。 这 样 ， 在 每 一 次 调用 中 ， 视 遍历 方向 的 不 同 ， 参 数 pathFrom 可 以 用 来 代表 
pathFrom (或 badPathFrom) 集合 ,或 者 pathTo (或 badPathTo) 集合 。 可 以 证 明 需 要 最 多 调 
用 UpdateSlice 8 次 来 更 新 所 有 的 路 径 信 息 。 对 沿 向 边 的 雪 缩 ，4 次 调用 就 已 足够 。 

既然 对 不 同方 向 的 调用 结果 是 对 称 的 ， 我 们 可 以 来 分 析 一 下 更 新 newPathSources 中 的 所 有 
pathFrom 集 的 一 次 调用 的 代价 。 对 于 由 newPathSources 表 示 的 片 中 的 每 个 顶点 w， 我 们 将 计算 
mewPathFrom[w] 集 合 ， 它 表示 在 韧 缩 之 后 从 w 到 达 的 新 顶点 的 集合 。 当 处 理 每 一 个 顶点 时 ， 
我 们 将 访问 它 的 所 有 前 驱 。 在 每 一 个 前 驱 y 上 ， 我 们 将 检查 newPathFrom[w] 中 的 每 一 个 顶点 z， 
看 它 是 否 在 pathFrom[y] 中 。 如 果 z 不 在 pathFrom[y]， 我 们 就 把 它 添加 到 pathFrom[y] 和 
newPathFrom[y]。 图 8-32 给 出 这 一 算法 。 

正确 性 ”过程 UpdateSlice 的 正确 性 可 以 通过 对 从 workiist 中 移出 元 素 的 顺序 作 归 纳 来 证 明 。 

因为 worklist 的 第 一 个 元 素 是 x， 我 们 可 以 确信 它 的 rewPathFrom 集 合 得 到 正确 的 计算 ， 因 为 按 
照 我 们 的 计算 方法 ， 它 就 是 初始 的 newPathSinks 集 合 。 现 在 假定 : 对 在 顶点 w 前 从 worklist 移 
出 的 所 有 顶点 ，pathFrom[b] 和 newPathFrom[b] 是 正确 计算 的 。 另 外 ， 我 们 假设 当 顶 点 w 从 
worklist 移 出 时 ， 它 有 一 个 pathFrom 和 集合 是 不 正确 的 。 这 只 能 是 因为 pathFrom[w] 有 某 个 应 该 
置 位 而 没有 置 位 的 位 。 这 样 的 位 必 与 newPathSinks 中 的 某 顶 点 相对 应 。 但 是 这 意味 着 w 的 后 继 
的 pathFrom 集 合 或 newPathFrom 和 集合 中 ， 这 些 位 均 未 置 位 。 但 是 既然 从 w 到 由 该 位 表示 的 顶点 
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间 必 有 一 条 边 ， 那 么 某 个 需 在 w 之 前 从 worklist 中 移出 的 前 驱 也 必 有 一 个 对 应 于 该 顶点 集合 的 
错误 地 置 位 的 位 。 这 就 与 假设 矛盾 。 


procedure UpdateSlice(x, pathFrom, newPathSources, newPathSinks, cesors, pcesors) 


Mare A SR TL 
/pathFrom 是 要 更 新 的 集合 
1/ newPathSources 是 可 以 到 达 x 的 顶点 的 集合 ， 但 不 包含 那些 被 声 缩 的 顶点 
1/ newPathSinks 是 从 那些 被 南 缩 的 顶点 可 达 但 从 x 不 可 达 的 顶点 集 
I cesors 是 后 继 结 点 集合 (如果 从 x 后 向 遍历 ) 
I pcesors 是 前 蝶 结 点 集合 (如 果 从 x 后 向 遍历 ) 
1/ 在 newPathSources 中 从 x 回 浏 更 新 pathFrom 集 ， 在 newPathSinks 中 加 入 顶点 
: newPathFrom{[x] : =newPathSinks; 
: for each b € newPathSources — {x} do newPathFrom[b] :=@; 
worklist := {x}; 
: while worklist + Ø do begin 
从 worklist 前 端 选 一 个 元 素 w 并 将 其 从 中 删 去 ; 
for each y € pcesors[w] 且 满足 y E newPathSources do begin 
if y $ worklist.ever then 将 y 加 入 worklist; 
for each z E newPathFrom{w] do 
if z ¢ pathFrom[y] then begin 
pathFrom[y] :=pathFrom[y] U {z}; 
newPathFrom[y] := newPathFrom[y] U {z}; 
end 
end L, 
end L, 
end UpdateSlice 





图 8-32 对 到 达 x 或 从 x 到 达 的 部 分 顶点 更 新 pathFrom 集 


复杂 性 为 了 说 明 这 种 算法 的 时 间 复 杂 度 在 预期 的 上 界 之 内 ， 我 们 必须 考虑 实现 的 几 个 不 
同 的 方面 。 首 先 ， 在 下 一 小 节 题 为 “快速 集合 实现 ”中 ， 我 们 将 描述 如 何 表示 整数 集 使 得 成 
员 关 系 检 查 、 插 入 和 初始 化 都 只 需 常数 时 间 (初始 化 是 最 困难 部 分 )。 如 果 使 用 这 种 表示 方法 ， 
我 们 就 能 在 常数 时 间 内 把 所 有 newPathFrom 集 和 worklist 初 始 化 为 空 集 。 由 于 进入 过 程 最 多 
OV) 次 ,而且 一 片 中 最 多 有 OQO(V) 个 顶点 ， 循 环 上 的 代价 以 O(V?) 为 界 。 同 理 ， 由 于 
newPathSources 中 的 所 有 顶点 被 加 入 worklist 至 多 一 次 ， 循 环 L 的 循环 体 最 多 执行 O(V?) KR. H 
环 心 访问 一 个 顶点 的 所 有 前 驱 ， 因 此 它 的 循环 体 最 多 执行 O(EV) 次 。 

可 惜 在 .3 的 循环 体 中 所 做 的 工作 包括 循环 144。 我 们 必须 采用 某 种 方法 来 求 出 循环 人 的 循环 
体 所 做 工作 的 界 ， 它 包含 一 个 f 语 名 $1:。 只 有 塌 缩 已 使 7 到 达 z， 且 首次 处 理 这 一 情形 ， 才 执行 
if 语 句 的 真 分 支 。 我 们 将 此 分 支 的 常数 时 间 记 入 被 置 为 真 的 pathFrom 和 矩阵 的 项 中 。 在 整个 算法 
中 ， 这 个 ff 语句 的 真 分 支 至 多 执行 O(V”) kK. 

这 样 就 剩 下 假 分 支 。 虽 然 这 个 假 分 支 是 空 的 ， 但 为 假 分 支 测试 本 身 表示 需要 常数 时 间 。 
那么 用 产生 的 假 条 件 执行 多 少 次 油 试 昵 ? 因为 z E newPathFrom[w]， 意 味 着 newPathFrom 集 合 
中 y 的 直接 后 继 w 已 将 其 pathFrom 集 合 中 对 应 于 z 的 位 置 为 真 。 这 样 ， 我 们 将 把 此 测试 代价 记 入 
y 和 w 之 间 的 边 上 。 由 于 任 一 给 定 的 pathFrom 位 在 这 个 算法 中 最 多 只 能 被 置 位 一 次 ， 每 一 边 最 
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多 只 能 被 计 代 价 V 次 ， 对 于 每 一 个 从 那 条 边 的 汇 点 能 到 达 的 顶点 计 一 次 。 这 样 ， 整 个 算法 用 于 
假 分 支 条 件 测 试 的 总 代价 就 是 O(EV)。 

这 些 因 素 证 明 patpFrom 和 badPatFrom 在 整个 算法 中 能 够 在 O(EV+ W) 时 间 内 更 新 。 同 样 
的 分 析 可 以 得 出 对 pathTo 和 badPathTo 的 更 新 也 有 相同 的 时 间 上 界 。 

快速 集合 实现 实现 这 一 算法 的 一 个 简单 的 方法 是 对 所 有 集合， 使 用 一 个 列表 和 一 个 相 联 
位 向 量 。 遗 憾 的 是 ， 将 位 向 量 初始 化 为 空 集 需要 O(V) 时 间 。 这 在 过 程 UpdateSlice 中 是 不 可 接 
受 的 ， 因 为 这 将 使 得 循环 Li 的 总 代价 为 0(V)， 而 该 循环 的 执行 时 间 在 这 一 算法 中 占 主要 部 分 。 
这 样 ， 我 们 需要 找到 一 个 允许 常数 时 间 初 始 化 的 表示 ， 同 时 保持 常数 时 间 的 成 员 关 系 检 查 和 
插入 。 此 外 ， 我 们 希望 能 使 对 整个 集合 进行 迭代 的 时 间 与 集合 的 大 小 成 比例 。 

这 些 目标 可 以 通过 使 用 一 种 众所周知 但 很 少 讨论 的 策略 来 达到 ， 这 是 一 种 避免 由 索引 数 
组 表示 的 集合 的 初始 化 代价 的 方法 。 这 一 算法 的 基本 思想 (作为 练习 包含 在 Aho，Hopcroft 和 
Ullman[10] 所 著 的 书 中 ) 是 用 长 度 为 V 的 两 个 整数 数组 作为 集合 的 表示 。 数 组 0 按 元 素 Q[nexi] 到 
元 素 Q[iast] 的 顺序 包含 队列 中 所 有 的 顶点 。 数 组 In 将 用 于 元 素 测试 一 一 In[v] 将 包含 顶点 v 在 Q 
中 的 位 置 。 

在 队列 的 末尾 加 入 一 个 新 的 顶点 ?需要 执行 下 面 的 步骤 : 

last:=last+1; Q[last] :=y; In[y] := last; 
注意 ， 这 使 得 元 素 1n[y] 指 向 QO 中 的 一 个 位 置 ， 其 范围 在 [0: las 中 而 且 包 含 y。 这 样 ， 对 顶点 z 
是 否 是 2 的 一 个 成 员 的 测试 就 是 
next < In[z] < last and Q[Jn[z]] =z; 
图 8-25 中 所 需 的 z 是 否 曾经 是 8 的 成 员 的 测试 就 是 
0 < In[z] < last and Q[In[z]] =z; 

图 8-33 用 图 形 描述 队列 表示 。 注 意 顶点 4 不 可 能 被 误 认 为 是 C 的 一 个 成 员 ， 因 为 没有 正确 
范围 内 的 8 的 元 素 指 回 4。 

使 用 这 种 表示 ， 我 们 可 以 在 常数 时 间 内 
执行 所 有 的 队列 操作 ， 包 括 初始 化 操作 。 这 
一 数据 结构 将 在 这 种 算法 中 被 用 于 许多 集合 
的 表示 。 

最 后 的 观察 ”总计 起 来 ， 这 个 算法 的 总 
代价 包括 : BISA AOCEV+V*). $ (6) a) 
步 为 O(EV), 第 (6) b) FAO(EV+V’). 
因此 ， 整 个 算法 需要 OLEV+ V) 时 间 。 

任何 合并 算法 的 一 个 关键 点 就 是 要 重新 
HRA SRY FOE > BR Bs RZ MA AL 
值 。 在 前 面 介绍 的 算法 中 ， 通 过 将 与 原来 的 
两 个 顶点 相连 的 边 上 的 代价 加 起 来 ， 计 算出 图 8-33 快速 队列 表示 
合并 后 的 边 的 代价 。 在 很 多 情况 下 ， 这 并 不 
是 最 好 的 方法 。 例 如 ， 在 面向 重用 的 合并 问题 中 ， 我 们 可 能 在 三 个 不 同 的 循环 中 使 用 同样 的 
数组 变量 。 假 设 每 个 循环 执行 100 次 迭代 ， 则 三 个 循环 的 图 看 起 来 就 像 图 8-34。 
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在 这 个 例子 中 ， 把 顶点 x 和 y 合 并 起 来 ， 并 用 加 法 重新 计算 权 值 将 得 出 x 和 z 之 间 的 合计 权 值 


为 200。 实 际 上 ， 在 合并 后 总 的 额外 的 重用 是 100。 在 这 种 情况 
下 ,使 用 最 大 位 作为 重新 计算 权 值 的 操作 更 为 恰当 。 

这 种 算法 的 一 个 优点 是 边 的 重新 计算 权 值 至 多 执行 O(E) 
次 。 这 意味 着 我 们 可 以 使 用 一 种 比较 昂贵 的 重新 加 权 算 法 而 不 
会 对 执行 时 间 的 上 界 有 太 大 影响 。 例 如 ， 假 设 在 程序 中 有 4 个 
不 同 的 数组 ， 如 果 我 们 对 每 个 顶点 用 一 个 长 度 为 4 的 数组 来 表 
示 循 环 中 每 个 数组 的 使 用 次 数 ， 那 么 我 们 可 以 如 下 进行 重新 计 
算 权 值 : FER IE CERT SBT PRS TRS BE EARR RAK 
值 ， 然 后 对 复合 顶点 的 各 个 后 继 的 对 应 数组 之 间 的 最 小 权 值 求 
和 。 这 种 以 数组 为 单位 的 计算 可 以 在 0(4) 时 间 内 完成 。 因 此 ， 
整个 合并 算法 需要 OC(E+V) (V+A)) 时 间 。 如 果 4= OC(V)， 那 
么 这 种 算法 就 与 使 用 加 法 进行 重新 计算 权 值 的 合并 算法 具有 相 
同 的 新 近 时 间 复 杂 度 上 界 。 
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图 8-34 权 值 计算 例子 


虽然 这 种 算法 在 实际 中 应 该 产生 好 的 效果 ， 但 是 图 8-35 显 示 它 并 不 总 是 产生 最 优 结果 。 
在 这 个 例子 中 ， 最 高 的 权 值 边 就 是 带 有 权 值 11 的 (a, )。 如 果 我 们 击 缩 这 条 边 ， 最 后 的 合并 集 
将 是 {a, pb, c, ad, 用， 而 所 有 边 的 总 权 和 值 将 是 16。 然 而 ， 通 过 把 c 和 d 与 5 合并 ， 我 们 已 排除 了 c 和 
d 与 e 合 并 ， 因 为 从 b 到 e 的 路 径 上 有 坏 顶 点 。 如 果 我 们 把 ce 和 d 与 e: 和 /合并 的 话 ， 节 省 的 总 的 权 值 


将 是 22， 这 是 更 好 的 结果 。 





图 8-35 贪 禁 加 权 合并 的 非 优化 性 


8.6.5 面向 寄存 器 重用 的 多 层 循环 合并 


下 面 我 们 将 讨论 多 层 循 环 嵌 套 问 题 。 对 于 多 层 合 并 的 基本 策略 是 先 在 最 外 层 进行 合并 ， 


然后 递归 地 合并 所 形成 的 循环 的 体 。 


这 种 特别 简单 的 方法 有 一 个 非常 重要 的 复杂 情况 。 当 在 一 外 层 循环 上 进行 合并 而 作 循环 
对 齐 时 ， 我 们 必须 仅 对 齐 包 含 外 层 循环 索引 的 索引 ， 而 假设 内 层 循环 索引 将 另行 对 齐 。 
为 了 说 明 这 一 原则 ， 我 们 看 下 面 的 例子 ， 这 是 用 来 表示 二 维 松弛 计算 的 : 
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DO J = 1, 1 000 
DO I= 1, 1 000 
ACI, J) = B 
ENDDO 
ENDDO 
DO J = 2, 999 
DO I = 2, 999 
ACI, J) = A(I+1, J) + ACI - 1, J) + ACI, J+1) + ACI, J- 1) 
ENDDO 
ENDDO 


外 层 循 环 的 对 章 应 该 仅仅 考虑 出 现 J 的 索引 。 这 样 ， 对 章 将 产生 


DO J = 0, 999 
DOI = 1, 1 000 
ACI, J +1) =B 
ENDDO 
ENDDO 
DO J = 2, 999 
DO I = 2, 999 
ACI, J) = ACI+1, J) + ACI-1, J) + ACI, J +1) + ACI, J- 1) 
ENDDO N 
ENDDO 451 


合并 后 变 成 
DO J=0, 1 
DO I = 1, 1 000 
ACI, J+ 1)=8 
ENDDO 
ENDDO 
DO J = 2, 999 
DO I = 1, 1000 
A(I , J+ 1)=B 
ENDDO 
DO I = 2, 999 
A(I, J) = A(I +1, J) + ACI - 1, 9) + ACI, 0 +1) + ACI, J - 1) 
ENDDO 
ENDDO 
现在 ， 当 对 第 二 个 循环 的 循环 体 作对 齐 时 ， 我 们 需要 关心 的 惟一 引用 就 是 A(I,Jt1)， 所 
以 不 需要 作 任 何 对 齐 。 再 一 次 合并 产生 
D0OJ=0,1 
DOI=1,1 000 
A(I, J+ 1)=B 
ENDDO 
ENDDO 
DO J = 2, 999 
A(0, J +1) = 8B 
00 I = 2, 999 
ACI, 0 +1) =8B 
ACI, J) = ACI +1, J) + ACI - 1, J) + ACI, 9 +1) + ACI, 0 - 21) 
ENDDO 
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A(1 000, J + 1) =B 
ENDDO 


标量 替换 后 ， 内 循环 将 变 成 
DO J = 2, 999 
tAl = tB ! moved into a register earlier 
A(O, J+ 1) = tAl 
tA0 = A(1, J) 
DO I = 2, 999 
tAl = tB 
ACI, J + 1) = tAl 
tA0 = ACI + 1, J) + tAO + tAl + ACI, J - 1) 


ACI, J) = tad 
ENDDO 
A(1 000, J+ 1) =B 


452 ENDDO 
这 段 代码 在 每 一 次 迭代 中 节省 两 次 引用 (总 计 6 次 引用 ) ， 所 以 这 段 代 码 将 比 简单 生成 的 代码 
快 1.5 倍 。 这 种 改进 一 半 应 该 归功 于 两 层 循环 合并 。 使 用 展开 和 压 紧 可 以 取得 更 进一步 的 改进 。 
图 8-36 给 出 整个 合并 算法 。 


procedure CompleteFusion(R) 
// 参数 R 是 一 个 包含 一 些 循环 和 一 些 不 在 任何 循 坏 中 的 赋值 语句 的 代码 区 域 
证 R 中 没有 循环 then return; 
使 用 WeighredFusion 算 法 选择 一 组 循环 作 合 并 ; 
for each 合 并 集合 中 的 集合 5 do begin 


衬 外 层 循 环 的 索引 变量 对 齐 5 中 的 循环 
使 用 FuseLoops 产 生 一 组 合并 的 循环 ; 
end 
for each 合 并 后 R 中 的 循环 ! do CompleteFusion(body())); 
end CompleteFusion 





图 8-36 多 层 循环 合并 


8.7 改进 寄存 器 使 用 的 变换 综合 
现在 来 讨论 怎样 把 改进 寄存 器 使 用 的 不 同 变换 综合 起 来 ， 我 们 用 矩阵 乘法 的 完整 处 理 过 
程 来 说 明 一 些 基本 原理 。 


8.7.1 决定 变换 的 顺序 

在 转向 讨论 寄存 器 改进 策略 的 扩充 例子 之 前 ， 我 们 应 先 谈论 一 下 本 章 中 讨论 过 的 变换 的 
顺序 问题 。 排 序 的 目标 之 一 是 尽 可 能 少 地 改变 原来 的 代码 。 就 是 说 ， 除 非 它 能 改进 代码 的 性 
能 ， 否 则 我 们 就 不 应 作 任何 改变 。 假 定 有 两 个 对 性 能 的 改进 大 致 相同 的 选择 ， 我 们 应 该 选择 

453 引 ”对 代码 的 改变 最 少 的 那个 。 尽 可 能 地 使 代码 保持 原状 有 助 于 程序 员 理 解 这 些 改 变 。 

按照 前 面 的 讨论 ， 我 们 列 出 推荐 的 寄存 器 分 配 的 变换 顺序 : 

(1) 篇 环 交换 :应 该 先 做 循环 交换 是 因为 它 将 重用 带 入 最 内 层 循环 ， 这 应 是 优先 的 。 循 
环 合并 可 能 与 此 过 程 冲突 。 
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(2) WRIS AH: 它 可 以 得 到 跨越 循环 的 额外 重用 ， 特 别 是 当 所 编译 的 代码 是 由 像 
Fortran 90( 见 13.2 节 ) 前 端 这 样 的 预 处 理 器 生成 的 时 候 。 
(3) 展开 和 压 紧 : 当 在 循环 交换 之 后 存在 由 非 最 内 层 循环 携带 的 依赖 时 ， 它 可 以 实现 外 


层 循环 的 重用 。 
(4) 标量 替换 : 通过 用 标量 变量 来 替换 可 以 重用 的 数组 引用 ， 产 生 为 标准 的 基于 着 色 的 
寄存 分 配器 。 


这 4 个 步 又 的 应 用 在 下 一 节 将 用 例子 来 说 明 。 


8.7.2 例子 : 矩阵 乘法 
我 们 以 典型 的 矩阵 乘法 为 例 来 说 明 寄 存 分 配 变 换 的 应 用 。 我 们 先 从 适合 于 向 量 机 算法 版 
本 开始 。 在 科学 计算 程序 中 ， 将 代码 重 排 以 便 更 好 地 向 量化 是 非常 常见 的 。 当 这 些 代码 被 移 
植 到 标量 单 处 理 器 机 器 上 时 ， 它 们 很 少 会 被 重 写 以 利用 这 些 机 器 的 特点 。 
DO I=1, N 
DOJ=1,N 
So C(J, I) = 0.0 
ENDDO 
DOK =1, N 
DO J=1,N 
Si C(J, I) = C(d, I) + ACJ, K) * B(K, I) 
ENDDO 
ENDDO 
ENDDO 
通过 将 沿 连续 的 列 元 素 选 代 的 索引 为 J 的 循环 莘 于 最 内 层 ， 这 段 代码 可 以 在 两 个 循环 父 套 中 
进行 长 向 量 操作 。 
图 8-37 显 示 涉 及 循环 中 两 个 语句 的 依赖 。 从 图 中 我 们 可 以 看 出 ，K- 循 环 携 带 与 语句 S; 有 关 
的 大 部 分 依赖 。 454 
很 清楚 ， 我 们 应 该 把 K- 循 环 交换 到 围 着 Ln =O 
$1 语 旬 的 最 内 层 位 置 ， 产 生 a 


o a 
DOI=1,N | èx N o 
DOJ=1, N POTEP + A(J,K) * BCK, I) 
ök 


6 a 


C(J, I) = 0.0 
ENDDO 
009=1,N 图 8-37 和 矩阵 乘法 涉及 的 依赖 
00 K=1,N 
C(J, I) = C(J, I) + ACJ, K) * BCK, I) 
ENDDO 
ENODO 
ENDDO 
现在 ， 我 们 对 I- 循 环 的 循环 体 作 循环 合并 ， 产 生 
DO I =1, N 
DOJ=1, N 
c(J, I) = 0.0 
DOK =1,N 
CI, I) = CCd, I) + AGI, K) * BK, I) 
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ENDDO 
ENDDO 
ENDDO 
接 下 来 ， 我 们 对 两 个 外 层 循环 作 因子 为 2 的 展开 和 压 紧 ， 得 到 如 下 代码 : 
DO I=1, N, 2 
DO J = 1, N, 2 
c(J, I) = 0.0 
C(d + 1, 1) = 0.0 
C(J, 1 +1) = 0.0 
C(J +1, I +1) = 0.0 
DOK = 1，N 
C(J, 1) = C(J, 1) + ACJ, K) * BCK, I) 
CJ +1, I) =C(J +1, 1) + ACd + 1, K)» BCK, I) 
C(J, I +1) = C(J, I + 1) + ACJ, K) * BK, I + 1) 
Cid +1, 1+1) =C(J +1, 1+ 1) + ACO +1, K) * BCK, I + 1) 
ENDDO 
ENDDO 
ENDDO 
经 过 标量 替换 这 段 代 码 变 为 
DO I=1, N, 2 
DO J= 1, N, 2 
s0 = 0.0; sl =0.0; s2=0.0; s3= 0.0 
DOK=1,N 
rl = A(J, K); r2 = B(K, I) 
r3 = ACJ +1, K); r4 = B(K, I + 1) 
s0 = s0 + rl * r2; sl = sl t+ r3 * r2 
s2=s2 + rl * r4; s3 = s3 + r3 * r4 
ENDDO 
C(J, I) = s0; C(J +1, I )= sl 
C(J, I+ 1)= s2; Cld+1, I+ 1) = 83 
ENDDO 
ENDDO 


如 果 每 一 个 标量 变量 都 分 配 到 一 个 寄存 器 的 话 ， 就 需要 8 个 寄存 器 ， 但 是 内 层 循 环 中 的 8 个 
浮 点 操作 的 计算 需要 4 次 取 数 。 此 外 ， 有 足够 的 操作 填 满 多 达 4 个 阶段 的 加 法 流水 线 。 一 般 来 说 ， 
如 果 展 开 因子 是 m， 这 个 策略 能 够 取得 在 内 层 循 环 中 执行 we? 个 浮 点 操作 和 2m 次 取 数 的 速度 。 


8.8 复杂 的 循环 医 套 

实际 上 ， 真 实 程序 中 的 循环 通常 比 迄今 为 止 我 们 作为 例子 使 用 的 循环 要 复杂 得 多 。 例 如 ， 
要 在 密集 的 线性 代数 计算 上 做 出 好 的 工作 ， 需 要 有 关 变 换 系统 来 处 理 包 含 f 语 名 的 循环 、 三 角 
形 循环 和 梯形 循环 以 及 LU 分 解 中 的 那些 特殊 的 循环 娱 套 。 本 节 将 介绍 处 理 这 些 循环 嵌 套 的 一 
些 方法 。 
8.8.1 包含 if 语句 的 循环 

遗憾 的 是 ， 在 8.3 节 中 介绍 的 标量 替换 策略 不 能 自然 地 扩展 到 有 条 件 的 代码 。 看 下 面 的 例子 : 


DOI=1, N 
5 IF (MCI) .LT. 0) ACT) = B(I) +C 
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10 D(I) = ACI) +E 
ENDDO 
由 于 对 A(I) 的 赋值 和 使 用 产生 的 从 语句 5 到 语句 10 的 真 依赖 不 会 显露 出 对 A(I) 的 赋值 是 有 
条 件 的 。 只 使 用 依赖 信息 ， 一 个 简单 的 标量 替换 方法 会 产生 下 面 的 代码 : 
DOI=1,N 
5 IF (M(I) .LT. 0) THEN 
a0 = BCI) + C 
A(T) = a0 
ENDIF 
10 D(I) = a0 +E 
ENDDO 
这 段 代码 是 错误 的 ， 因 为 一 个 假 的 谓词 导致 a0 没 有 定义 ， 从 而 在 语句 10 中 产生 不 正确 的 a0 值 。 
解决 这 个 问题 的 方法 非常 简单 : 我 们 通过 在 这 语句 的 假 分 支 处 插入 一 个 对 a0 的 从 A(I) 的 取 
数 ， 就 可 以 保证 a0 具 有 正确 的 值 : 
DO I =1,N 
5 IF (MCI) .LT. 0) THEN 
a0 = B(I) + C 
A(T) = a0 
ELSE 
a0 = A(I) 
ENDIF 
10 D(I) = a0 +E 
ENDDO 
用 这 种 方法 插入 指令 的 危险 在 于 可 能 增加 沿 某 些 路 径 执行 这 个 程序 时 的 时 间 。 不 过 ， 在 这 企 
例子 中 ， 这 并 不 成 为 一 个 问题 一 一 如果 执 行 真 分 支 ， 对 A(I1) 的 取 数 就 可 以 避免 ， 而 如 果 执 行 
假 分 支 ， 就 会 插入 一 个 取 数 ， 而 另 一 个 取 数 会 被 删除 。 在 任何 一 种 情况 下 ， 运 行 时 间 都 不 会 
增加 ， 除 非 插 入 一 个 额外 的 分 支 语句 。 

我 们 算法 的 目标 是 要 应 用 这 些 变换 后 不 会 造成 运行 时 间 的 增加 。 一 个 与 此 目标 相同 的 优 
化 策略 是 部 分 宛 余 消除 ， 该 方法 试图 消除 在 给 定 的 执行 路 径 上 的 两 个 相同 计算 中 的 后 一 个 。 
一 个 计算 称 为 宛 余 的 ， 如 果 在 每 一 条 到 达 它 的 路 径 上 ， 都 有 一 个 相同 的 计算 先 于 它 出 现 。 在 
这 种 情况 下 ， 我 们 就 说 它 在 每 一 条 路 径 是 都 是 提前 的 。 如 果 这 个 计算 只 在 某 些 到 达 它 的 执行 
路 径 上 是 提前 的 ， 我 们 就 说 它 是 部 分 宛 余 的 。 为 了 消除 部 分 元 余 计 算 e， 编译 器 必须 在 每 一 条 
不 提前 的 路 径 上 复制 e。 正 如 文献 [215] 中 的 介绍 ， 部 分 元 余 消除 的 一 个 基本 特性 是 ， 它 保证 不 
增加 任何 路 径 上 的 计算 次 数 。 

为 使 部 分 宛 余 消 除 适 应 标量 替换 ， 我 们 真正 感 兴趣 的 是 对 在 每 一 条 到 达 使 用 的 路 径 上 尚 
未 初始 化 的 变量 插入 初始 化 操作 。 为 此 我 们 注意 到 ， 在 程序 的 某 一 给 定点 p 处 ， 如 果 一 个 变量 
是 活 时 的 ， 它 就 有 可 能 是 未 初始 化 的 一 一 存在 一 条 不 含 赋值 的 到 达 使 用 的 路 径 一 一 且 存 在 一 条 
从 程序 的 入 口 块 开始 的 不 包含 初始 化 操作 的 路 径 。 我 们 的 目标 是 在 每 一 条 不 包含 初始 化 操作 
的 路 径 上 插入 一 个 初始 化 表达 式 。 进 一 步 ， 我 们 将 在 不 在 未 被 初始 化 的 任何 路 径 上 的 最 后 基 
本 块 的 末尾 插入 这 个 初始 化 操作 。 

为 简单 起 见 ， 我 们 假设 程序 中 的 每 条 if 语句 都 有 else 分 支 《 可 能 为 空 )。 这 种 人 为 的 条 件 
可 以 通过 在 为 循环 建立 控制 流 图 时 插入 空 结 点 而 加 和 入。 下面 介绍 几 个 变量 : 
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$ liveou(b) 是 在 基本 块 b 的 出 口 处 活跃 的 临时 变量 的 集合 。livein(5) 是 在 bp 的 入 口 处 活跃 的 

变量 集合 。 

。aliveou(b) 是 绝对 活跃 的 变量 集合 ， 即 在 从 2 的 出 口 到 图 的 出 口 结 点 的 任何 路 径 上 都 是 活 

BRAY. alive,,(b) 包含 在 8 的 人口 处 是 绝对 活跃 的 变量 集合 。 

*initn(b) 是 在 b 的 入 口 处 已 被 初始 化 的 变量 集合 。initow(b) 是 在 2 的 出 口 处 已 被 初始 化 的 变 

量 集合 。 

*。prnitn(b) 是 在 b 的 入 口 处 已 部 分 被 初始 化 的 变量 ， 即 在 到 达 b 的 入 口 的 某 些 路 径 上 被 初始 

化 的 变量 集合 。pinitow(b) 是 在 到 达 5b 的 出 口 已 部 分 初始 化 的 变量 集合 。 

我 们 希望 在 这 样 的 基本 块 中 插入 初始 化 操作 ， 在 其 中 变量 不 是 部 分 初始 化 的 ， 但 是 在 它 
的 后 继 中 是 部 分 初始 化 的 。 更 进一步 ， 该 变量 在 这 个 基本 块 的 出 口 处 应 该 是 绝对 活跃 的 。 这 
些 条 件 保证 我 们 绝 不 会 在 任何 路 径 上 将 变 为 元 余 的 一 点 插入 一 个 取 数 操作 。 

458 下 面 的 等 式 定义 变量 的 alive、init 和 pinit: 
alive „(b) = Nalive, (c) 


alive „(b) = (alive „ (b) - killed(b)) U used (b) (8-1) 


init,(b)= N init,,(a) 
a€pred(b) 


，， ，， , (8-2) 
init „(b) = init, (b) U assigned(b) l 
pinit, (b) = Y ， pinit,,,(a) 
red (b) 
(8-3) 


pinit „(b) = pinit, (c) U assigned(b) 


现在 我 们 可 以 给 出 插入 的 条 件 。insertsw(b) 集合 是 必须 在 bp 的 末端 插入 初始 化 操作 的 临时 
变量 集合 。insertin(5b) 集合 是 必须 在 2 的 起 始 处 插入 初始 化 操作 的 变量 的 集合 。 首 先 ， 如 果 一 
个 变量 在 一 个 基本 块 中 使 用 但 没有 在 到 达 该 基本 块 的 任何 路 径 上 初始 化 ， 我 们 就 必须 在 该 基 
本 块 的 起 始 处 插入 这 个 变量 : 
insert,,(b) = used(b) — pinit, (b) (8-4) 
如 果 一 个 变量 在 到 达 一 个 基本 块 的 任何 路 径 上 未 被 初始 化 ， 在 这 个 基本 块 的 出 口 处 是 绝 
对 活跃 的 ， 且 在 这 个 基本 块 的 某 个 后 继 处 是 部 分 可 用 的 ， 我 们 就 在 这 个 基本 块 的 尾部 插入 对 
这 个 变量 的 初始 化 : . 
insert,,,(b) = alive,,(b) Q ~pinit(b)N (UU, pinit(b)) (8-5) 
在 每 个 插入 点 ， 我 们 插入 与 临时 变量 相对 应 的 下 标 引 用 到 临时 变量 的 赋值 操作 。 在 最 初 
的 标量 替换 中 ， 这 个 引用 是 可 以 省 去 的 。 


8.8.2 梯形 循环 

` 许 多 在 实际 程序 中 出 现 的 循环 并 不 是 规则 的 ， 对 和 矩形 结构 的 循环 ， 本 章 所 介绍 的 变换 是 
很 有 效 的 。 特 别 是 ， 许 多 循环 的 上 下 界 会 随 着 外 层 循环 的 索引 在 同一 循环 幅 套 中 变化 。 在 本 
小 节 中 我 们 将 介绍 如 何 改造 那些 改进 寄存 器 使 用 的 变换 来 处 理 这 些 梯形 循环 。 


三 角形 展开 与 压 紧 
如 果 恰 当地 划分 这 些 循 环 ， 我 们 可 以 使 用 前 面 几 节 中 介绍 的 技术 将 展开 和 压 紧 以 及 循环 
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分 块 用 于 梯形 循环 。 以 下 面 的 循环 为 例 : [459| 
DO 1 = 2, 99 
DOJ=1,1-1 
ACI, J) = ACI, I) + Ad, J) 
ENDDO 
ENDDO 


我 们 想 要 使 用 展开 和 压 紧 来 变换 这 个 循环 以 便 不 仅 能 重用 A(I,I) 的 当前 值 ， 还 能 重用 A(J,J) 
的 值 。 问 题 是 在 梯形 循环 中 不 能 直接 用 展开 和 压 紧 技术 。 
如 果 对 外 层 循 环 展 开 两 次 ， 就 得 到 
DO I = 2, 99, 2 
po J=1, 1-1 
ACI, J) = ACI, I) + A(J, J) 
ENDDO 
DO J=1, I 
ACI + 1, J) = ACI +1, I +1) + AQ, J) 
ENDDO 
ENDDO 


METE., MEHR TARBARENRA—TEREBAAE, RNR TIA 
个 循环 压 紧 在 一 起 。 这 将 产生 
DO I = 2, 99, 2 
DOJ=1,1-1 


ACI, J) = ACI, I) + ACJ, J) 
A(T + 1, J) = ACT +1, 1 +1) + AGU, J) 


ENDDO 
A +1, DAQ +1, 141) + ACI, 1) 
ENDDO 
如 果 现 在 执行 标量 替换 ， 我 们 得 到 
tI = A(2, 2) 


DO I = 2, 99, 2 
tll = A(I #1, I +1) 
DOJ=1,1-1 
tJ = ACJ, J) 
A(I, J) = tI + td 
A(I +1, J) = tIl + td 
ENDDO 
A(I +1, 1) =tI+ tll; ti = tl 
ENDDO 
这 段 代 码 在 内 层 循 环 的 每 次 迭代 中 需要 作 一 
次 取 数 和 两 次 存 数 一 一 这 是 对 简单 版 本 的 每 
次 迭代 的 两 次 取 数 的 改进 ， 假 设 即使 是 简单 
的 寄存 器 分 配器 也 能 检测 到 内 层 循 环 中 
A(J,J) 的 重用 。 图 8-38 说 明 这 种 策略 。 这 里 
我 们 看 到 三 角形 循环 被 分 割 为 每 块 有 两 个 J- 
循环 迭代 的 矩形 块 和 少 于 2 次 选 代 《〈 即 1 次 适 图 8-38 三 角形 展开 和 压 紧 
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代 ) 的 三 角形 循环 。 
这 种 方法 可 以 推广 为 展开 多 于 2 次 ， 但 是 代码 会 更 复杂 。 看 看 外 层 循环 展开 3 次 的 结 采 就 
清楚 了 。 这 里 ， 我 们 已 调节 循环 上 下 界 使 之 可 以 被 3 整除 ， 在 实际 中 会 有 一 个 前 置 循环 来 处 理 


DO I = 2, 100 
dJ=1,1-1 
A(T, J) = ACI, I) + AQ, J) 
ENDDO 
ENDDO 


如 果 将 外 层 循 环 展开 三 次 ， 就 得 到 
DO I = 2, 100, 3 
DdOv=1, 1-1 
A(I, J) = ACI, I) + ACJ, J) 
ENDDO 
po J=1, I 
ACI + 1, J) = ACI +1, 1 +1) + ACJ, J) 
ENDDO 
dO J=i1, 1+1 
ACL +1, J) = ACL #1, I+ 1) + AQ, J) 
ENDDO 
ENDDO 


再 次 合并 ， 我 们 得 到 
DO I = 2, 100, 3 
DOJ=i1,1-1 
ACI, J) = ACI, I) + A(J, J) 
A(I +1, J) = ACI +1, I +1) + A(y, J) 
A(I + 2, J) = ACL + 2, I+ 2) + ACJ, J) 
ENDDO 
D0J=1,I 
A(I +1, J)=A(I+1, I+1)+A(J, J) 
ENDDO 
D0J=I,I+1 
ACL + 2, J) = ACI + 2, I + 2) + ACJ, J) 
ENDDO 
ENDDO 


展开 最 后 两 个 内 层 循环 ， 我 们 得 到 


DO I = 2, 100, 3 
00J=1,1-1 
ACI, J) = ACI, I) + A(J, J) 
ACI +1, J) = ACI + 1, I+ 1) + ACJ, J) 
A(I + 2, J) = ACI +2, I + 2) + ACJ, J) 
ENDDO 
A(I +1, I) = A(T +1, 1 +1) + ACI, I) 
ACI + 2, 1) = ACI + 2, I + 2) + ACI, I) 
ACL +2, T+ 1) =ACI + 2, 1+ 2) + A(T +1, 1+ 1) 
ENDDO 
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标量 替换 后 的 代码 是 


tI = A(2, 2); tIl = A(3, 3) 
DO I = 2, 100, 3 
tI2 = ACI + 2, I + 2) 
po J=1, 1-1 


ty = ACJ, J); ACI, J) = tI + ty 
ACI + 1, J) = tI] + td; ACI + 2, J) = tl2 + ty 
ENDDO 


A(I + 1, I) = tIl + tl; 

A(I + 2, 1) = t12 + tI 

A(T + 2, 1 +1) = tl2+ tIl 
tI = tIl; tIl = tl2 


ENDDO 
这 段 代码 在 内 层 循环 的 每 次 迭代 减少 了 三 个 取 数 。 
梯形 展开 和 压 紧 





为 了 理解 怎样 把 前 一 节 中 的 方法 扩展 到 梯形 循环 ， 我 们 看 一 个 非常 重要 的 例子 简单 的 
卷 积 。 这 个 循环 出 现在 许多 地 震 分 析 应 用 中 ， 特 别 是 在 石油 工业 中 。 下 面 的 版 本 是 从 地 球 物 
理 的 地 震 分 析 的 真实 代码 中 抽取 出 来 的 ， 并 且 占 据 了 那个 应 用 代码 的 大 部 分 运行 时 间 

DO I = 0, N3 

DO J = I, MIN(N1, I + N2) 

F3 (I) = F3 (I) + FI(J) * WI - J) 
ENDDO 
F3 (1) = F3 (I) * OT 

ENDDO 
显然 ， 变 量 F3(I) 在 整个 内 层 循环 的 迭代 中 将 被 保存 在 某 个 寄存 器 。 很 容易 看 出 ， 通 过 展开 和 
压 紧 可 以 得 到 的 变量 F3(I) 的 重用 。 然 而 ， 展 开 和 压 紧 还 可 以 提供 对 变量 MI-J) 的 重用 。 

在 对 这 个 循环 伐 套 运用 展开 和 压 紧 之 前 ， 我 们 把 它 分 为 两 部 分 一 -I+N2<N3 的 部 分 和 余 
下 的 一 部 分 使 得 每 一 个 循环 由 套 中 的 内 层 循环 有 一 个 一 致 的 上 界 : 

DO I = 0, N3 - N2 

DO J = I, I+N2 l 

l F3 (I) = F3 (1) + F1(J) * W(I - J) 





ENDDO 
F3 (1) = F3 (1) * DT 
ENDDO 
DO I = N3 - N2 + 1, N3 
00 J = 工 Nl 
F3 (I) = F3 (I) + Fl(d) * WI - J) 
ENDDO 
F3 (1) = F3 (1) * DT 
ENDDO 


第 二 个 循环 媒 套 不 再 是 梯形 的 ， 因 为 上 界 就 是 N3。 因 此 ， 我 们 可 以 把 注意 力 放 在 第 一 个 
PERE. HIP RBM RIK, El 
DO I = 0, N3 - N2, 2 


D0 J= I, I + N2 
F3 (I) = F3 (1) + F1(J) * W(I - J) 
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ENDDO 
F3 (I) = F3 (1) * DT 
DO J= I+l, 1+ N2+1 
F3 (1 + 1) = F3 (1 + 1) + Fld) * WUT - J + 1) 


ENDDO 
F3 (1 +1) = F3 (1 +1) * OT 
ENDDO 
合并 内 层 循环 的 公共 和 迭代 产生 


DO0I=0，N3 - M2, 2 
F3 (I) = F3 (I) +Fl(I) * W(0) 
DO J=1+1, I + N2 
F3 (I) = F3 (I) + Fl(J) * WI - J) 
F3 (1 +1) = F3 (I + 1) + Fl(J) * WII ~ J +1) 
ENDDO 
F3 (I + 1) = F3 (1 +1) + FICT + N2 +1) * WO - N2 ~ 1) 
F3 (1) = F3 (I) * OT 
F3 (I +1) = F3 (1 + 1) * DT 
ENDDO 


对 这 个 循环 作 标量 替换 ， 产 生 
DO I = 0, N3 - N2, 2 
f3I = F3 (I); 311 = F3 (I + 1) 
fll = Fl(I); wIJO = W(0) 
f3I = f3I + flI * wIJO 
DO J=1+ 41, I + N2 
flJ = F1(J); wIJI = W(I - J) 
f3I = f31 + fld * wiJl 
F311 = f3I1 + flJ * wIJO 
wIJO = wIJ1 
ENDDO 
flJ = Fl(I + N2 + 1); wIyl = WO - N2 - 1) 
f3I1 = f3I1 + flJ * wIJI 
F3 (I) = #31 * DT; F3 (I + 1) = £311 * DT 


ENDDO 
EB. AAA TRRIAR PRA MEI, PRD CI-0) RUA E FRR 
一 个 证 7 
二 个 语句 实例 上 。 来 8-3 “RII 


在 Carr 和 Kennedy 在 MIPS M120 上 所 作 的 实验 


中 ， 改 进 的 代码 在 只 有 100 个 元 素 的 数组 上 取得 了 表 原始 代码 15.59%) 
= ` 变换 后 代码 702% 
8-3 所 示 的 加 速 比 ， 加 速 比 2.22 


8.9 小 结 

我 们 介绍 了 许多 改进 现代 单 处 理 器 CPU 寄存 器 中 数组 值 的 重用 的 基于 依赖 的 技术 。 这 些 
方法 对 浮 点 寄存 器 尤其 有 用 ， 因 为 它们 经 常 被 用 来 保存 数组 数据 结构 的 单个 元 素 。 因 此 , te 
统 的 基于 图 着 色 的 寄存 器 分 配 策略 对 这 些 寄存 器 是 低 效 的 。 方 法 包括 : 

。 标 重 替 换 ， 将 下 标 变 量 的 重用 暴露 给 有 好 的 寄存 器 分 配器 的 标量 编译 器 。 

。 展 开 和 压 紧 ， 变 换 程序 以 开发 外 层 循环 中 的 寄存 器 重用 。 

。 循环 交换 ， 把 携带 重用 最 多 的 循环 移 到 最 内 层 的 位 置 。 
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。 对 齐 的 循环 合并 ， 把 一 个 程序 不 同 循环 中 的 引用 合并 到 一 个 循环 中 。 

这 些 技术 已 经 被 证 明 适 用 于 包含 控制 流 和 有 梯形 迭代 范围 的 循环 。 本 章 的 重要 贡献 是 介 
绍 了 一 种 使 用 贪 禁 启 发 式 方法 来 解决 加 权 合并 问题 的 快速 算法 , 它 是 由 于 考虑 循环 合并 的 有 利 
性 而 自然 产生 的 。 


8.10 实例 研究 

由 Carr，Callahan 和 Kennedy[55，64，65, '67] 提 出 的 策略 的 最 早 实现 是 在 PFC 系统 中 ， 然 
后 被 移植 到 ParaScope。 在 8.3.8 节 和 8.4.3 节 介绍 的 所 有 有 效 性 研究 都 是 在 这 一 框架 结构 上 完成 
的 。 实 现 方面 的 主要 考虑 是 加 入 对 输入 依赖 的 测试 。 尽 管 测 试 本 身 可 以 通过 简单 地 修改 依赖 
分 析 加 以 实现 ， 但 输入 依赖 的 总 数 可 能 大 得 足以 给 编译 器 造成 麻烦 。 特 别 是 标量 的 依赖 可 能 
造成 依赖 图 大 小 的 巨大 膨胀 ， 因 为 可 以 在 循环 娱 套 的 每 一 层 上 携带 它们 。 在 PFC 系 统 中 ， 我 
们 使 用 标量 依赖 的 概要 表示 来 解决 这 个 问题 ， 即 用 一 条 边 概括 各 层 的 依赖 。 可 以 相当 简单 地 
扩展 这 一 策略 来 概括 所 有 的 方向 向 量 。 有 了 这 些 改动 ， 尽 管 依 赖 图 仍然 很 大 ， 但 是 其 大 小 已 
是 可 以 处 理 的 。 

标量 替换 和 相关 的 变换 在 最 初 的 Ardent Titan 中 特别 重要 ， 这 是 因为 浮 点 操作 是 在 向 量 部 
件 上 执行 ， 所 有 取 数 和 存 数 都 绕 过 了 高 速 缓存 。 换 名 话说 ， 浮 点 值 不 会 在 高 速 缓存 中 ， 所 以 
有 效 地 利用 寄存 器 就 非常 关键 。 除 了 不 构造 输入 依赖 边 ， 编 译 器 像 本 章 所 介绍 的 那样 作 标量 
替换 ， 因 此 它 失 去 了 很 多 改进 的 机 会 。 然 而 ，Titan 编 译 器 的 标量 替换 阶段 ， 展 开 与 压 紧 和 基 
于 输出 依赖 的 存 数 消 除 一 起 ， 产 生 了 非常 好 的 效果 。10.5 节 中 的 表 10-1 介 绍 对 Livermore 循 环 
应 用 依赖 分 析 的 研究 结果 。 在 6 个 标量 替换 作为 重要 优化 的 核心 程序 中 ， 由 依赖 和 标量 替换 所 
得 的 改进 从 7.4% 直 到 200%。 这 些 结果 以 及 那些 改进 显著 的 核心 与 图 8-10 中 报告 的 Livermore 循 
环 上 的 PFC 结果 吻合 得 很 好 。 

最 初 的 PFC 实现 和 Ardent Titan 编 译 器 都 没有 作对 齐 的 循环 合并 来 改进 寄存 器 分 配 。 尽 管 
对 齐 和 合并 已 经 作为 改进 高 速 缓存 利用 的 策略 而 得 到 了 研究 [103，105]， 但 我 们 没有 看 到 仅 
依靠 合并 后 的 更 好 的 标量 替换 而 导致 单独 改进 的 研究 。 


8.11 历史 评述 与 参考 文献 

Allen 和 Kennedy 在 论文 “向 量 寄存 器 分 配 ”[22] 以 及 Allen 的 论文 [16] 中 首先 提出 了 用 依赖 
在 向 量 机 上 优化 寄存 器 使 用 。John Cocke 提 出 在 RS/6000 (最 早 的 由 于 高 速 缓存 不 命中 而 产生 
很 长 时 延 的 机 器 之 一 ) 上 使 用 展开 和 压 紧 技术 。 这 一 想法 在 Callahan，Cocke 和 Kennedy 的 论 
文 [55] 中 首次 发 表 。 使 用 标量 替换 来 取得 单 处 理 器 上 的 寄存 器 重用 的 思想 是 由 Carr 和 Kennedy 
提出 的 [67]。Carr 在 与 Callahan 和 Kennedy 合 作 的 一 系列 的 论文 [65，66] 中 报告 了 标量 替换 以 及 
展开 与 压 紧 的 实现 及 其 效果 。 依 赖 图 前 枝 的 算法 是 由 Brandes[43]，Rosene[237] 和 Carr[64] 提 
出 的 。 处 理 复 杂 循 环 嵌 套 的 算法 也 是 由 Carr 和 Kennedy[66] 提 出 的 。 

循环 对 齐 最 初 是 由 Allen，Callahan 和 Kennedy 作 为 一 种 在 并 行 化 中 消除 携带 依赖 的 方法 提 
出 的 [25]。 在 合并 后 运用 对 齐 来 改进 寄存 器 重用 的 方法 是 新 颖 的 ， 尽 管 它 作为 一 种 改进 高 速 缓 
存 重用 的 机 制 已 被 研究 过 [103，105]。 

本 章 介 绍 的 贪 丈 加 权 合 并 算法 是 由 Kennedy[171，172] 提 出 的 。Kennedy 和 McKinley[176] 
给 出 了 加 权 合 并 是 NP 完全 问题 的 最 早 的 证 明 ， 并 提出 了 一 种 基于 重复 应 用 Goldberg 和 Tarjan 的 
网 络 最 大 流 算法 的 启发 式 策略 [176]。 该 算法 需 时 O(KkEV log(V/E)), FEA < V 是 所 需 应 用 的 最 
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大 流 算 法 的 次 数 。 该 算法 所 得 的 解 比 由 贪 禁 加 权 合并 算法 求 得 的 解 的 好 还 是 坏 并 不 请 楚 。Gao， 
Olsen，Sarkar 和 Thekkath[118] 给 出 了 边 的 惟一 权 值 是 1 或 0 的 0-1 合 并 问题 的 解决 方法 。 这 种 用 
来 支持 数组 紧缩 [242] 的 局 部 性 优化 方法 先 用 了 一 个 O(EV) 的 前 置 遍 来 减 小 图 的 大 小 ， 然 后 在 
简化 图 Gx = (Er, Vr) 上 连续 应 用 最 大 流 算法 。 整 个 算法 需要 O(EV+ VE log Ve) 时 间 。 因 此， 
Gao 算 法 产生 一 个 解决 加 权 合 并 问题 的 一 个 子 问 题 的 启发 式 方法 ， 其 时 间 复 杂 度 比 贪 禁 加 权 合 
并 略 差 。 然 而 ， 因 为 这 些 算 法 所 得 到 的 解 可 能 由 于 使 用 了 不 同 的 启发 式 规则 而 不 同 ， 因 此 很 
难 比较 它们 之 间 熟 优 康 劣 。Meggido 和 Sarkar 对 一 个 循环 合并 的 最 优 算法 做 了 实验 ， 实 验 显 示 
对 小 的 例子 其 执行 时 间 是 合理 的 [211]。 贪 禁 加 权 合 并 算法 的 各 种 替代 算法 都 采用 加 法 作为 重 
新 加 权 的 操作 ， 这 使 得 它们 在 需要 更 复杂 的 重新 加 权 策 略 的 存储 层次 上 的 效果 不 够 理想 。 
习题 
8.1 用 标量 替换 手工 变换 下 面 的 程序 。 假 设 数 组 A 只 用 在 这 个 循环 中 。 在 标量 替换 后 ， 这 
个 程序 还 需要 数组 A 吗 ? 你 能 否 形式 化 从 一 个 程序 中 去 掉 一 个 数组 的 条 件 ? 
DO I=1, N 
AC) =B(1)+3.0 
SUM=SUM+A(1) 
ENDDO 
8.2 PLER PMP ARE Re By ENTREM. REA LEER? 在 变换 前 
后 浮 点 操作 与 取 数 的 比率 是 多 少 ? 你 假定 有 多 少 个 寄存 器 ? 
DO I=1, N 
DO J=1, N 
A (I+1, J+1) =A (I, J+1) +A (I+1, J) +B (J) 
ENDDO 
ENDDO . 
8.3 针对 不 同 的 NM 的 值 ， 包 括 非 常 大 的 〈 比 高 速 缓存 大 的 ) 值 ， 在 你 最 喜欢 的 机 器 上 【使 
用 Fortran 编 译 器 ) 运行 习题 8.2 中 的 循环 嵌 套 。 报 告 并 解释 最 后 的 结果 。 
8.4 访问 同一 数组 A(1:N) 的 两 个 循环 总 可 以 使 用 循环 对 齐 来 合并 吗 ? 如果 可 以 ， 予以 证 
BA; 如 果 不 可 以 ， 给 出 反例 。 
8.5 考虑 一 个 简单 的 贫 禁 加 权 合并 算法 。 该 算法 迭代 地 选择 权 值 最 大 的 边 ， 然 后 沿 从 汇 点 
到 源 点 的 所 有 路 径 前 济 以 决定 合并 是 否 合法 。 这 个 算法 的 渐进 复杂 度 是 什么 ? (或 者 说 ,为 
什么 它 如 8.6.4 节 所 给 出 的 快速 贪 禁 加 权 合 并 算法 一 样 好 ? ) 
8.6 重 作 8.5.1 节 的 例子 ， 通 过 考虑 输入 依赖 而 改进 性 能 。 提 示 : 这 样 可 为 每 个 迭代 节省 一 
个 取 数 操作 。 
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9.1 引言 

虽然 寄存 器 的 重用 和 高 速 缓存 的 重用 具有 很 多 共性 特点 , 但 二 者 间 也 有 显著 的 差别 。 首先 ， 
二 者 的 基本 储存 单位 不 同 。 一 个 寄存 器 精确 地 包含 一 个 字 ， 高 速 缓存 则 被 分 成 块 ( 或 行 )， 每 
个 块 通常 包含 多 个 字 。 所 以 ， 寄 存 器 的 重用 是 由 于 连续 访问 同一 个 数据 项 而 引起 的 。 这 种 形 
式 的 重用 通常 称 为 时 间 重 用 ， 它 在 高 速 缓存 的 管理 中 同样 是 有 用 的 。 在 另 一 方面 ， 当 一 个 高 
速 缓存 块 被 调和 后， 对 同一 块 中 的 不 同 数据 项 的 访问 不 会 导致 不 命中 。 这 种 形式 的 重用 一 一 由 
于 一 些 数据 项 的 存储 是 邻近 的 ， 使 得 它们 出 现在 同一 个 高 速 缓存 块 中 一 一 称 为 空间 重用 。 

寄存 器 重用 和 高 速 缓存 重用 之 间 的 第 二 类 不 同 是 由 于 高 速 缓存 实现 的 方式 导致 的 。 例 如 ， 
对 于 大 多 数 高 速 缓存 ， 向 不 在 高 速 缓存 中 的 块 进行 的 写 操作 将 导致 一 次 不 命中 ,使 得 在 完成 
写 操作 前 要 先 将 涉及 到 的 块 读 和 高速 缓存 中 。 对 寄存 器 的 写 人 则 无 需 这 种 读 操 作 。 这 种 性 质 
的 一 个 直接 推论 是 反 依赖 在 提高 高 速 缓存 的 重用 中 起 着 重要 的 作用 一 一 如 果 引 用 可 以 被 调整 
得 与 后 续 的 写 操作 很 接近 ， 则 写 操作 导致 的 高 速 缓 存 不 命中 是 可 以 避免 的 。 

最 后 ， 高 速 缓存 的 操作 本 质 上 讲 是 同步 方式 的 ; 也 就 是 说 ， 在 等 待 解决 一 次 不 命中 时 ， 处 
理 器 处 于 停顿 的 状态 。 当 连续 发 生 多 次 不 命中 时 ， 这 将 严重 地 降低 性 能 。 这 类 性 能 问题 迫使 机 
器 的 设计 者 采取 措施 ， 使 得 多 个 高 速 缓存 操作 可 以 同时 进行 。 一 种 常用 的 实现 方式 是 增加 一 个 
预 取 操 作 ， 它 可 以 作为 机 器 的 一 条 指令 被 使 用 。 预 取 指 令 不 会 导致 处 理 器 的 阻塞 ， 除 非 在 装 入 
完成 之 前 ， 对 被 装 和 的 高 速 缓存 块 出 现 了 一 次 引用 。 预 取 操 作 只 是 提供 改善 性 能 的 机 会 ; 能 否 
真正 利用 这 些 机 会 ， 取 决 于 编译 器 能 否 适时 地 产生 预 取 指令 。 这 是 9.5 节 要 讨论 的 主题 。 

高 速 缓存 的 重用 类 型 有 两 种 ， 时 间 重 用 和 空间 重用 ， 它 们 使 得 提高 性 能 有 两 种 常用 的 策 
略 。 在 循环 中 的 迭代 访问 连续 的 存储 空间 时 一 一 更 确切 地 说 ， 是 当 一 个 循环 中 每 个 迭代 访问 
的 存储 位 置 与 前 面 一 个 迭代 访问 的 存储 位 置 邻 近 时 ， 可 以 获得 最 高 的 空间 重用 。 所 以 ， 对 于 
拥有 长 的 高 速 缓存 块 的 机 器 而 言 ， 获 得 好 的 高 速 缓存 性 能 的 关键 是 选择 恰当 的 循环 作为 循环 
KERABA. Øn, X} T Fortran mák E 


DOI=1,N 
DOJ=1,M 
A (I, J) =A (I, J) +B (I, J) 
ENDDO 
ENDDO 


By PERT E. Fortran A ELAR KE AY, A, AEP SIAC, J), 
对 于 固定 的 J 值 ，I- 循 环 进行 迭代 时 ， 对 存储 的 访问 将 是 相 邻 的 。 所 以 ， 对 于 拥有 容纳 多 个 字 
的 高 速 缓存 块 的 机 器 而 言 ， 对 这 两 个 循环 进行 交换 将 提高 其 性 能 : 

DOJ=1, M 


DOI=1,N 
A(I, J) =A (I, J)+B (I, J) 
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ENDDO 
ENDDO ` 


对 内 层 循环 的 正确 选择 不 总 是 这 么 明了 的 。9.2 节 将 讨论 增强 空间 重用 的 循环 交换 策略 。 
在 时 间 重 用 的 情形 面临 的 问题 略 有 不 同 。 假 设 目前 我 们 在 讨论 的 机 器 具有 一 个 数据 项 占 
据 一 个 单独 的 高 速 缓存 行 的 特点 。 在 这 样 一 个 机 器 上 ， 时 间 重 用 是 唯一 的 一 种 重用 。 现 在 再 
考虑 8.1 节 的 例子 
DO I=1,N 
po J=1, M 
A (I) =A (I) +B (J) 
ENDDO 
ENDDO 
如 果 我 们 关注 于 高 速 缓存 的 行为 ， 我 们 可 以 看 到 对 于 1 的 每 个 不 同 的 值 ， 引 用 A(I) 只 是 在 
第 一 次 访问 时 导致 一 次 高 速 缓 存 不 命中 。 在 另 一 方面 ， 由 于 几乎 所 有 的 高 速 缓 存 都 采用 “最 
近 最 少 使 用 ”的 替换 策略 ， 所 以 当 M 足 够 大 时 ， 对 8(J) 的 每 痰 访问 都 会 导致 一 次 高 速 缓存 不 命 
中 。 这 意味 着 如 果 WM 大 于 整个 高 速 缓存 的 字 的 数目 ， 则 8B(1) 很 可 能 由 于 J- 循 环 的 后 续 迭 代 中 的 
访问 而 被 从 高 速 绥 存 中 蔡 换 出 去 。 在 这 种 情况 下 ， 这 个 循环 侨 套 导致 的 不 命中 次 数 是 N * M, 
对 内 层 循环 进行 分 段 ， 使 得 一 个 分 段 的 长 度 $ 与 高 速 缓存 相 匹配 ， 然 后 将 在 这 些 分 段 上 进 
行 迭 代 的 循环 移 到 最 外 层 的 位 置 ， 这 样 可 以 提高 性 能 。 结 果 如 下 : 
DOJ=1, M,S 
DOI=1,N 
DO jj = J, MIN(M, J +S - 1) 
A (I) =A (1) +B (jj) 
ENDDO 
ENDDO 
ENDDO 
如 果 S 足 够 小 ,内 层 循环 除了 在 对 B(jj ) 进 行 第 一 次 访问 时 不 命中 之 外 ， 不 会 再 出 现 其 他 
不 命中 。 然 而 ， 我 们 在 此 引入 了 新 的 关于 A(I) 的 不 命中 一 对 于 J- 循 环 的 每 一 次 迭代 ，A 的 每 
个 元 素 将 导致 一 次 不 命中 ， 不 命中 的 总 次 数 是 N_*+ M/S。 对 于 5 的 任何 合理 的 值 ， 这 个 不 命中 
次 数 要 远 小 于 原 有 循环 的 不 命中 次 数 。 
这 种 变换 称 为 循环 分 段 和 交换 ， 而 通用 的 方法 称 为 高 速 缓存 分 块 。9.3 节 将 更 详细 地 讨论 
分 块 的 策略 。 . 


9.2 适合 于 空间 局 部 性 的 循环 交换 

考虑 一 个 至 少 有 两 层 循环 的 完全 个 套 的 循环 媒 套 。 一 个 核心 问题 是 ， 巍 套 中 的 哪个 循环 
应 该 在 最 内 层 ? 这 个 问题 之 所 以 重要 是 因为 最 内 层 循环 决定 了 数组 的 哪 一 维 被 顺序 地 访问 。 
当 我 们 在 8.5 节 中 讨论 适合 于 增强 寄存 器 重用 的 循环 交换 时 ， 我 们 只 是 试图 使 得 内 层 循环 拥有 
最 多 的 依赖 。 然 而 ， 对 于 高 速 缓存 而 言 ， 空 间 重用 使 得 问题 变 得 复杂 了 一 一 通常 ， 当 以 跨 距 1 
对 连续 的 存储 单元 访问 时 ， 得 到 最 好 的 效果 。 

既然 Fortran 的 数组 是 以 列 优先 的 次 序 存储 的 ， 只 有 当 循环 是 在 列 上 选 代 时 才能 获得 跨 距 
为 1 的 访问 。 将 这 个 循环 移 到 最 内 层 的 位 置 可 以 提高 空间 局 部 性 ， 使 得 每 个 高 速 缓存 行 的 不 命 
中 率 降 为 1 次 (假设 下 标 系数 是 1)。 作 为 一 个 例子 ， 考 虑 下 面 的 循环 : 
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DOI=1,N 
DOJ=1, M 
A (I, J)=B(I, J)+€ 
ENDDO 
ENDDO 471 
按 目 前 的 形式 ， 由 于 最 内 层 循环 是 在 数组 不 连续 的 维 上 进行 依次 访问 ， 这 个 循环 典 套 在 每 
次 访问 数组 A 和 每 次 访问 数组 B 时 都 将 导致 一 次 不 命中 ， 总 的 不 命中 次 数 是 2MN。 如 果 交 换 循环 ， 
00J=1,M 
DOI=1,N 
A (I, J)=B (I, J)+C 
ENDDO 
ENDDO 
不 命中 次 数 将 按 一 个 因子 b 减 少 ，b 是 一 个 高 速 缓存 行 容纳 的 字 的 个 数 ， 总 共有 2MN/5 次 不 命中 。 
不 幸 的 是 ， 实 际 的 情形 通常 不 是 这 样 显而易见 ， 如 下 面 代码 所 示 : 
DOI=1,N 
00 J=1, M 
D (I) =D (I) + 8 (I, J) 
ENDDO 
ENDDO 
在 这 个 循环 侯 套 中 ， 相 对 于 外 层 循 环 的 每 次 迭代 ， 数 组 D0 的 访问 至 多 只 有 一 次 不 命中 。 事 实 上 ， 
由 于 D(I) 在 内 层 循环 的 每 个 迭代 都 被 访问 ， 它 及 其 包含 它 的 整个 高 速 缓存 行将 保留 在 高 速 缓存 
中 ， 直 至 外 层 循环 的 下 一 次 迭代 开始 。 所 以 ， 实 际 的 不 命中 次 数 是 Nb， 此 处 的 bp 是 一 个 高 速 缓 
存 行 容纳 的 字 的 个 数 。 在 另 一 方面 ， 这 个 循环 修 套 由 于 访问 数组 B 导 致 的 不 命中 次 数 是 NM 次 。 
循环 交换 有 可 能 减少 上 述 的 不 命中 次 数 。 循 环 交换 可 以 将 关于 8 的 不 命中 次 数 减 少 至 NM/b， 
但 这 将 失去 数组 0 中 的 原 自然 局 部 性 ， 从 而 使 得 每 访问 (数组 0) b 次 后 引发 一 次 不 命中 。 对 于 
修改 后 的 循环 ， 产 生 的 不 命中 的 总 次 数 是 2NM/b。 如 果 我 们 将 这 两 个 结果 进行 比较 ， 可 以 看 到 
交换 后 的 循环 更 好 的 条 件 是 ， 如 果 
N/b + NM — 2NM/b >0 


上 式 可 以 化 简 为 
M(b-2)+1>0 
所 以 ， 当 高 速 缓存 行 的 大 小 至 少 是 两 个 字 大 小 时 ， 循 环 交 换 才 是 有 利 的 。 

对 循环 的 所 有 可 能 的 置换 进行 详细 的 分 析 是 代价 巨大 的 ， 但 是 为 了 确定 循环 的 次 序 ， 从 
而 将 时 间 重 用 性 最 大 化 ， 通 常 一 个 简单 的 启发 式 方 法 就 可 以 获得 非常 好 的 结果 。 在 下 面 的 方 
法 中 ， 将 循环 嵌 套 中 的 每 个 循环 看 作 是 循环 候 套 的 最 内 层 循环 ， 对 其 导致 的 存储 代价 进行 评 
佑 。 在 进行 这 个 评 佑 时， 不 必 考 虑 循环 是 否 可 以 移 到 最 内 层 的 位 置 ， 所 以 后 续 的 循环 重 排 阶 
段 试图 使 得 循环 对 齐 的 次 序 接近 于 这 个 启发 方法 建议 的 次 序 。 

这 种 方法 的 基本 思想 是 : 假设 被 评估 的 循环 位 于 最 内 层 ， 为 循环 修 套 中 的 每 个 引用 标注 
一 个 代价 值 。 给 定 一 个 循环 恕 套 {L, Lo, L,}， 我 们 将 分 三 步 为 循环 九 套 中 的 每 个 循环 L 定 
义 一 个 最 内 层 存 储 访问 代价 函数 Cx(L)。 首 先 ， 要 找 出 循环 妊 套 中 的 引用 并 根据 高 速 缓 存 不 命 
中 的 情况 为 其 指定 一 个 存储 代价 ， 此 处 的 高 速 缓 存 不 命中 是 指 当 每 个 引用 仅 位 于 给 定 的 循环 
时 导致 的 不 命中 : 


下 
par 
N 
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(1) 一 个 引用 如 果 与 循环 的 索引 变量 无 关 ， 代 价 赋值 为 1。 

(2) 如 果 一 个 引用 中 出 现 的 给 定 循环 的 索引 变量 是 对 非 连续 维 进 行 步 进 ， 则 给 定 代价 值 
为 W， 此 处 的 N 是 循环 的 迭代 次 数 。 

(3) 如 果 一 个 引用 中 出 现 的 索引 变量 是 对 连续 维 进行 小 跨 距 的 步 进 ， 跨 距 为 9*， 则 代价 由 

N Ns 
ID be 
\s/) 
确定 ， 其 中 是 循环 次 数 ，2 是 高 速 缓存 行 的 大 小 。 

一 旦 这些 代 价值 被 确立 ， 如 下 所 述 ， 代 价 被 乘 以 与 其 他 的 每 个 循环 相关 的 因子 : 

(1) 对 于 每 个 引用 ， 如 果 不 随 给 定 循环 的 循环 索引 变化 ， 则 代价 值 不 变 (用 1 相 乘 )。 

(2) 如 果 引 用 随 给 定 循环 的 循环 索引 变化 ， 则 代价 值 与 循环 的 迭代 次 数 相 乘 。 

当 每 个 引用 的 代价 值 被 确定 后 ， 对 于 给 定 循 环 ， 只 需 将 每 个 引用 的 各 自 代 价值 累加 起 来 ， 
就 可 以 得 到 其 最 内 层 存储 访问 代价 。 

为 了 使 上 述 的 方法 有 效 ， 我 们 需要 小 心地 定义 引用 的 含义 ， 以 避免 将 对 同一 个 高 速 缓存 
行 的 访问 重复 计算 。 所 以 ， 如 果 下 面 两 个 条 件 的 任何 一 个 被 满足 ， 则 我 们 认为 对 于 给 定 内 层 
循环 L， 两 个 引用 rl 和 rs 是 同一 个 引用 组 的 一 部 分 : 

(1) 这 两 个 引用 之 间 存 在 一 个 循环 无 关 依赖 ， 或 者 存在 一 个 依赖 ， 但 这 个 依赖 由 循环 阔 
值 很 小 的 循环 L 所 携带 ， 此 处 ,“ 很 小 ”的 定义 可 能 是 变化 的 ， 但 循环 阀 值 为 2 总 是 可 接受 的 。 
对 于 由 于 时 间 重 用 而 命中 同一 个 高 速 缓 存 行 的 引用 ， 这 个 条 件 可 以 保证 此 类 引用 不 会 被 重复 
计算 。 

(2) 两 个 引用 是 对 同一 个 数组 的 引用 ， 且 其 形式 只 是 在 连续 维 上 有 很 小 的 常数 的 不 同 ， 
此 处 的 “很 小 ”是 指 小 于 一 个 高 速 缓存 行 的 大 小 。 这 个 条 件 可 以 避免 对 由 于 空间 重用 而 对 同 
一 个 高 速 缓存 行进 行 的 访问 重复 计算 。 通 常 ， 对 上 述 条 件 要 推广 : 使 得 当 两 个 引用 在 连续 维 
上 的 距离 大 于 一 个 高 速 缓存 行 时 ， 要 形成 一 个 新 的 高 速 缓存 组 。 所 以 如 果 高 速 缓存 行 包含 4 个 
元 素 ， 对 于 在 同一 个 循环 体 中 的 引用 A(I)，A(I+2) 和 A(I+4)， 必 须 被 看 成 是 两 个 高 速 缓存 组 。 

在 做 了 上 述 修改 后 ， 代 价 函 数 保持 不 变 ， 除 非 代价 的 计算 是 针对 每 个 引用 组 的 一 个 单独 
的 引用 并 累加 以 确定 给 定 循环 的 最 内 层 存 储 访问 代价 。 

一 旦 循环 修 套 中 的 每 个 循环 的 最 内 层 存 储 访问 代价 被 计算 出 来 ,理想 的 笠 环 次 序 可 以 如 
下 得 到 : 将 最 内 层 存 储 访问 代价 最 小 的 循环 放 在 最 内 层 的 位 置 ， 按 照 循环 的 最 内 层 存储 访问 
代价 的 递增 顺序 由 最 内 层 到 最 外 层 依次 排列 循环 。 

作为 上 述 的 启发 方法 应 用 的 一 个 例子 ， 考 虑 同 我 们 的 例子 循环 

dbo I = 1， N 

DO J=1, M 
D(I) = D(I) + BCI, J) 
ENDDO 
ENDDO 


相关 的 代价 ， 其 中 有 两 个 引用 组 ， 一 个 是 对 D(1) 的 ， 一 个 是 对 B(I1,J) 的 。 我 们 分 别 考虑 每 个 
循环 的 代价 : . 

(1) 当 y- 循 环 是 最 内 层 循环 上 时， 我 们 得 到 D(I) 的 代价 是 1， 而 B(I,J) 的 代价 是 M。 这 两 个 
代价 值 都 要 与 N 相 乘 ， 在 相 加 后 得 到 总 的 代价 是 N+MN。 
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(2) 如 果 I- 循 环 是 最 内 层 循环 ， 对 于 这 两 个 引用 ， 我 们 得 到 同样 的 代价 WD。 对 于 外 层 循 
环 ， 这 两 个 代价 值 都 要 与 M 相 乘 ， 从 而 得 到 总 的 代价 是 2MNMB。 

如 果 高 速 缓 存 行 的 长 度 超过 两 个 字 的 长 度 ， 应 该 选择 第 二 种 排序 ， 即 将 I- 循 环 作为 最 内 
层 循环 ， 这 是 我 们 深入 分 析 的 结果 。 请 注意 在 第 一 种 情况 中 ， 启 发 式 方法 对 不 命中 的 次 数 重 
复 计算 了 ， 因 为 没有 注意 到 如 果 该 循环 是 对 连续 维 进行 迭代 ， 最 内 层 循 环 的 一 个 不 变 的 引用 
在 下 一 个 最 内 层 循 环 中 会 得 到 空间 重用 性 。 

当 得 到 了 一 个 理想 的 次 序 D= {0(1), 0(2), ..., o(n)}， 其 中 Low 表示 按照 我 们 的 启发 式 方 法 
出 现在 第 i 个 最 外 层 位 置 的 循环 后 ， 我 们 需要 对 循环 重新 排序 ， 以 便 与 理想 的 次 序 相 一 致 。 为 
了 达到 上 述 目 的 ， 我 们 使 用 一 个 观察 结果 ， 如 果 一 个 循环 在 最 内 层 的 位 置 可 以 得 到 比 其 他 循 
环 更 多 的 重用 ， 则 它 在 外 层 的 位 置 也 会 得 到 更 多 的 重用 。 所 以 我 们 希望 这 个 循环 的 放置 在 与 
上 述 启发 式 方 法 给 出 的 理想 的 位 置 最 接近 的 位 置 。 

我 们 将 依据 在 图 9-1 中 给 出 的 过 程 完成 这 个 处 理 ， 即 反复 进行 移 位 操作 ， 将 P 中 的 当前 位 
置 移 到 理想 的 次 序 中 剩余 的 最 外 层 的 合法 位 置 。 这 种 方法 得 到 的 循环 次 序 显然 是 合法 的 ， 因 
为 在 这 个 算法 的 整个 过 程 中 维持 合法 循环 顺序 的 性 质 。 


procedure PermuteLoops(N, O, n, P) 


I N= {L;, Ly, - La} E RAET E RERI BARE 

H O= {o(1), O(2), ..., o(n)} 是 理想 次 序 的 循环 索引 变量 
/1 是 循环 嵌 套 中 循环 的 个 数 

1 P={P), Pi, ..., Pte BERANE ARE 


j :=1; VP 中 当前 时 填充 的 位 置 的 索引 

P :=N; W 以 原始 的 置换 为 起 点 

while O + Ø do begin 
令 k 是 O 中 最 左 端的 满足 下 述 条 件 的 元 素 : 可 以 被 移 到 P 中 的 位 置 /， 

且 不 会 在 这 个 循环 修 套 的 方向 矩阵 中 引入 任何 非法 的 方向 向 量 ; 

将 k 从 O 中 删除 ; 
将 L 移 到 P;; 
j:=7j+l; 

end 

end PermuteLoops 





图 9-1 循环 置换 的 算法 


这 个 过 程 具 有 如 下 特点 : 如 果 N 中 的 循环 存在 一 个 合法 的 置换 序列 ， 其 中 Lo 是 最 内 层 的 
位 置 ， 则 PermuteLoops 将 生成 一 个 Lo 位 于 最 内 层 的 置换 序列 。 为 看 出 这 一 点 ， 请 注意 如 果 原 
来 的 循环 是 合法 的 ， 这 个 算法 的 每 一 步 产生 成 一 个 合法 的 排序 ， 因 为 只 有 当 满足 下 述 条 件 时 循 
环 才 会 被 移 位 : 在 方向 矩阵 中 ， 如 果 表 示 一 个 在 先前 的 移动 中 被 移 到 的 外 层 位 置 的 循环 的 行 向 
量 中 ， 所 有 没有 被 其 他 方向 覆盖 的 非 “=” 方 向 对 应 的 列 中 ， 当 前 循环 对 应 的 位 置 是 “<”。 假 
设 PermuteLoops 不 选择 Loww) 作为 最 内 层 循 环 ， 而 是 将 其 向 外 移 位 到 P 的 位 置 ， 其 中 m<n。 那 么 
移动 过 程 必然 经 过 每 个 在 理想 的 次 序 中 位 于 Low, 外 层 的 循环 ， 只 有 当 这 些 循环 中 的 每 个 移 位 到 
P 中 的 m 位 置 是 非法 时 ， 这 种 情况 才 会 发 生 。 或 者 说 ， 在 Lo 外 的 每 个 循环 , Blom 有 “<” 的 
某 个 位 置 它们 有 一 个 “> ”方向 并 且 这 些 循环 都 不 会 选择 到 包含 m 的 外 层 位 置 。 但 是 这 不 可 能 
为 真 ， 因 为 那样 就 不 会 存在 Lo 在 最 内 层 的 合法 排列 了 一 一 它 将 必须 一 直 在 那些 循环 外 边 。 


下 
es 





> 


324 POE 


从 上 述 的 论述 中 ， 我 们 知道 由 PermuteLoops 放 置 在 最 内 层 的 位 置 上 的 循环 是 携带 有 最 多 
重用 (以 其 代价 来 度量 ) 的 循环 ， 并 且 是 可 以 合法 放置 在 那里 的 。 这 意味 着 如 果 代价 模型 是 
准确 的 ， 则 这 种 方法 选择 了 最 优 的 合法 内 层 循环 。 

为 了 举例 说 明 这 个 方法 ， 我 们 回 过 头 来 ， 再 一 次 看 看 许多 教科 书 中 出 现 的 矩阵 乘法 的 例子 : 

DOI=1,N 

DOJ=1,N 
C(I, J) =0 
DOK =1,N 
C(I, J) = C(I, J) + ACI, K) * BCI, J) 
END00 
ENDDO 
ENDDO 


I BR REG AAS Ti RP RE 
DOI=1,N 
DOJ=1,N 
C(I, J) = 0 
ENDDO 
ENDDO 
DOI=1,N 
DOJ=1,N 
DOK =1,N 
C(I, J) = C(I, J) + ACL, K) * B(K, J) 
ENDDO 
ENDDO 
ENDDO 


FED EMRE +, ASEAN’, m ORE A ae AB Ot SF Be 
的 代价 是 由 12。 所 以 初始 化 的 循环 戏 套 应 该 置换 为 


DO I=1,N 
DOI=1,N 
C(I, J) = 0 
ENDDO 
ENDDO 


在 进行 计算 的 循环 体 中 ， 有 三 个 引用 组 ， 一 个 用 于 C， 一 个 用 于 A， 另 一 个 用 于 B。 表 9-1 
给 出 将 这 三 个 循环 分 别 放 在 最 内 层 位 置 时 的 代价 。 
9-1 RARER ADH 


循环 C(I,0) ACI, K) B(K,J) 总 计 
I Na/ Na/b Nz 2N2/b+N2 
Ne Nz N3 2N2+N2 
N? NB N3/b N3(141/b) +N? 





上 述 的 分 析 指 导 我 们 选择 I- 循 环 作为 最 内 层 循 环 ，K- 循 环 作为 次 最 内 层 循 环 ， 而 -循环 
作为 最 外 层 循环 : 


D0J=1,N 
DOK=1,N 
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DO I=1,N 
C(I, J) = C(I, J) + ACI, K)» BCK, J) 
ENDDO 
ENDDO 
ENDDO 

在 三 种 不 同 的 机 器 上 进行 试验 一 一 一 台 Sun Sparc 2， 一 台 Intel i860 和 一 台 IBM RS/6000, 
N=512 时 ， 置 换 后 的 循环 比 原始 的 循环 快 两 倍 [210]。 在 RS/6000 的 性 能 提高 接近 10 倍 ， 这 个 系 
统 的 访 存 延 时 与 未 来 的 机 器 特点 类 似 。 


9.3 分 块 
一 旦 循环 交换 选择 了 最 好 的 循环 次 序 ， 我 们 就 可 以 对 某 些 循环 尝试 用 分 块 (也 称 为 tiling ) 
提高 性 能 。 考 虑 上 一 小 节 中 经 过 循环 交换 后 的 例子 : 
DO J=1, M 
DO I=1,N 
DCI) = DCI) + BCI, J) 
ENDDO 
ENDDO 
如 前 面 指出 的 ， 这 个 循环 将 导致 2NM/b 次 不 命中 。 通 过 循环 分 段 和 交换 (在 9.1 节 中 介绍 ) 
可 以 进一步 提高 这 个 循环 的 性 能 ， 如 下 所 示 : 
DOI=1,N,S 
D0 J=1,M 
DO ii = I, MIN(I +S- 1, N) 
D(ii) = DCii) + BCii, J) 
ENDDO 
ENDDO 
ENDDO 
假设 8 中 的 每 一 列 都 从 一 个 新 的 高 速 缓 存 行 开始 。 那 么 ， 如 果 选 择 的 是 5 的 倍数 ， 对 
B(ii ,J) 的 访问 将 得 到 所 有 的 空间 重用 ， 不 命中 次 数 是 NM/b 次 。 假 设 对 D 的 存储 也 是 从 新 的 高 
速 缓存 行 开 始 的 。 那 么 如 果 $ 选 择 的 足够 小 ， 使 得 在 J- 循 环 的 不 同 迭 代 间 ， 包 含有 0D(ii7) 的 高 
速 缓存 行 保留 在 高 速 缓存 之 内 ， 对 5 的 访问 可 以 既得 到 空间 局 部 性 ， 又 得 到 时 间 局 部 性 ， 产 生 
总 的 不 命中 次 数 是 Wb 次 。 在 这 些 前 提 下 ， 总 的 失效 次 数 是 
{1 1Y NM 
Ut D 





当 M 很 大 时 ， 此 式 将 非常 接近 NM/b。 
现在 考虑 如 果 我 们 对 外 层 循环 进行 分 段 ， 并 且 将 对 分 段 得 到 的 段 进行 选 代 的 循环 交换 到 
内 层 。 这 相当 于 对 外 有 层 循 环 进 行 分 段 和 交换 : 
DOJ=1, M, T 
DOI=1,N 
DO jj = J, MIN(J +T- 1, M) 
D(I) = D(I) + BCI, jj) 
ENDDO 
ENDDO 
ENDDO 
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再 一 次 假设 8 的 每 一 列 都 从 一 个 新 的 高 速 缓存 行 开 始 。 如 果 选 择 的 T 足 够 小 ， 使 得 在 I- 循 

环 的 不 同 选 代 间 ， 包 含有 B(I, jj) 的 高 速 缓存 行 保留 在 高 速 缓存 中 ， 则 对 b 的 访问 可 以 从 空间 
局 部 性 中 得 到 好 处 ， 此 时 总 的 不 命中 次 数 仍然 是 NM 次 。 然 而 ， 在 D 上 的 不 命中 次 数 是 不 一 样 
的 ， 因 为 此 时 在 执行 内 层 的 两 个 循环 期 间 ， 每 个 高 速 缓存 行将 有 一 次 不 命中 发 生 ， 或 者 说 共 
有 Nb 次 不 命中 。 由 于 这 些 循环 共 被 执行 WT 次 ， 所 以 对 于 D 的 总 的 不 命中 次 数 是 NM/(bT)， 比 未 
分 块 的 版 本 优点 是 因子 T 的 存在 。 所 以 分 块 版 本 的 总 的 不 命中 次 数 是 

(1 二 NM 

tT 
既然 我 们 希望 M 比 T 大 很 多 ， 在 相同 的 行 对 齐 的 前 提 下 ， 这 个 公式 得 到 的 代价 大 于 前 面 的 内 层 
循环 分 段 的 代价 。 


9.3.1 非 对 齐 的 数据 
如 果 B 的 列 不 是 从 一 个 新 的 高 速 缓存 行 开始 ， 上 述 两 种 情况 的 分 析 将 发 生变 化 。 假 设 数组 
的 整体 内 存 分 配 从 高 速 缓存 行 开始 ， 且 多 维 数组 是 连续 存放 的 ， 则 每 个 新 的 列 可 能 从 高 速 缓 
存 行 的 任何 位 置 开 始 。 在 原始 的 分 块 
00 I=1,N, S$ 
bo J=1, M 
DO ii = I, MIN(I + S- 1, N) 
OCii) = DCii) + BCii, J) 
ENDDO 
ENDDO 
ENDDO 
中 ， 由 于 8B 的 行 可 能 从 一 个 高 速 缓存 行 的 中 间 开 始 ， 行 的 结束 也 早 于 其 使 用 的 最 后 一 个 高 速 缓 
存 行 的 结尾 ， 内 层 循 环 在 B 的 连续 片段 上 的 访问 可 能 对 每 一 次 迭代 有 一 次 额外 的 不 命中 。 所 以 ， 
访问 8 导致 的 额外 不 命中 是 其 每 一 列 对 于 外 层 的 I- 循 环 的 每 次 迭代 至 多 一 次 ， 或 者 说 总 次 数 是 
NM/S。 所 以 总 的 不 命中 次 数 不 会 超过 
(1+ 1/M+ b/S) NM/b 


在 第 二 种 分 块 
pO J=1, M, T 
DOI=1,N 
DO jj = J, MIN(J +T- 1, M) 
D(I) = D(I) + BCI, jj) ` 
ENDDO 
ENDDO 
ENDDO 


中 ， 售 弃 对 列 对 齐 的 假设 调整 导致 -循环 的 每 次 迭代 对 8 的 访问 至 多 增加 一 次 额外 的 不 命中 ， 
总 共有 MT 次 新 增 的 不 命中 。 所 以 这 个 版 本 的 程序 的 总 共 不 命中 次 数 是 
[1,1 PYNM 
tT * TW) b 
由 于 T 被 选择 为 bp 的 倍数 ， 且 MEET 大 得 多 ， 括 号 的 中 第 三 项 远 小 于 第 二 项 ， 所 以 其 结果 非 
常 接近 于 
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1\ NM 
GOF 
因此 ， 如 果 第 一 种 情形 中 的 块 大 小 $ 与 第 二 种 情形 中 的 块 大 小 T 相 近 ， 第 一 种 情形 不 再 显现 
(相对 于 第 二 种 情形 ) 更 好 的 性 能 。 然 而 ， 对 代码 的 分 析 显 示 : 在 第 一 种 方法 中 ， 高 速 缓存 必 
须 存 放 D 的 $/b 个 不 同 的 块 ， 而 在 第 二 种 方法 中 ， 同 样 大 小 的 高 速 缓存 必须 能 够 存放 8B 的 T 个 不 
同 的 块 。 这 意味 着 5 比 T 大 5b 倍 ， 所 以 第 一 种 方案 的 代价 改进 后 为 
1 1\NM 
(+ 
如 果 N 和 MM 的 大 小 相当 ， 则 这 种 方案 比 第 二 种 方案 的 性 能 要 略 差 一 些 。 换 句 话 说 ， 数 据 对 齐 的 
考虑 使 得 我 们 转 为 优先 选择 第 二 种 方案 。 

这 些 考虑 说 明 当 对 循环 同时 进行 分 块 时 ， 选 择 最 优 的 循环 次 序 的 复杂 性 一 一 对 于 循环 交换 
方案 最 好 的 次 序 未 必 是 分 块 方法 希望 的 最 好 的 循环 次 序 。 从 这 个 例子 得 到 的 特殊 经 验 是 如 果 
多 维 数组 的 列 不 与 高 速 缓存 的 边界 对 齐 ， 可 能 付出 的 代价 是 分 块 后 国定 的 最 内 层 访问 ， 而 不 
是 对 邻接 块 的 访问 ， 因 为 这 种 方法 将 额外 的 不 命中 移 到 了 内 层 循环 之 外 。 

在 后 面 几 小 节 中 ， 我 们 将 对 和 仍 套 循环 分 块 的 几 种 策略 进行 探讨 。 但 是 ， 我 们 将 首先 回答 
两 个 问题 : 

(1) 何 时 分 块 是 合法 的 ? 

(2) 何 时 分 块 是 合适 的 ? 


9.3.2 分 块 的 合法 性 

分 块 的 基本 算法 称 为 御 环 分 段 和 交换 。 基 本 上 ， 该 算法 有 如 下 步骤 : 将 一 个 给 定 循环 分 段 ， 
得 到 两 个 循环 ， 一 个 循环 在 分 段 内 进行 连续 的 选 代 ， 而 一 个 外 层 循环 进行 逐 段 迁 代 ， 然 后 将 
对 段 进 行 迭 代 的 循环 交换 到 其 他 的 包围 着 两 个 循环 的 循环 之 外 。 基 本 算法 在 图 9-3 中 给 出 。 

显然 ， 循 环 分 段 这 一 步 总 是 合法 的 ， 因 为 它 没有 对 执行 次 序 进行 任何 的 改变 。 但 是 ， 对 
逐 段 循环 实施 交换 不 是 必然 合法 的 。 考 虑 在 5.2.1 小 节 中 给 出 的 循环 交换 的 合法 性 。 基 本 上 ， 
如 果 对 于 每 一 个 被 循环 L.…Le+ 1! 中 任何 循环 携带 的 依赖 的 方向 向 量 中 第 k 个 分 量 是 一 个 “=” 或 
“<”， 使 得 循环 移 位 后 的 方向 矩阵 依然 合法 ， 则 循环 交换 是 合法 的 。 

事实 上 ， 合 法 性 测试 过 于 保守 ， 因 为 当 交 换 非 法 的 时 候 ， 循 环 分 段 和 交换 仍然 可 以 在 特 
定 的 环境 中 实施 ， 如 图 9-3 的 例子 所 示 。 如 果 分 段 的 大 小 小 于 或 等 于 可 能 阻碍 进行 循环 交换 的 
依赖 距离 的 阀 值 ， 此 时 虽然 单纯 的 循环 交换 是 不 合法 的 ， 但 是 循环 分 段 和 交换 是 合法 的 。 在 
图 9-3 中 ， 有 一 个 被 外 层 的 J- 循 环 携带 的 阻碍 循环 交换 的 依赖 ， 其 依赖 距离 为 3， 如 果 分 段 的 
大 小 是 3 或 更 小 ， 则 这 个 依赖 不 会 阻碍 循环 分 段 和 交换 的 实施 。 然 而 ， 基 于 依赖 距离 往往 比 有 
用 的 分 段 大 小 小 得 多 的 认识 ， 使 用 保守 的 测试 方法 是 一 种 简单 而 有 效 的 方法 。 


9.3.3 分 块 的 有 利 性 

通常 ， 如 果 在 一 个 非 最 内 层 的 循环 的 不 同和 迭代 间 有 重用 ， 分 块 是 有 利 的 。 如 果 将 在 9.2 节 
中 介绍 的 重 排序 方法 从 次 最 内 层 循环 开始 逐步 向 外 实施 ， 可 望 找到 重用 。 

在 两 种 情况 下 ， 可 以 得 到 外 层 循环 的 重用 : 

(1) 循环 携带 一 个 有 小 的 阀 值 的 任何 类 型 的 依赖 ， 包 括 输入 依赖 ， 循 环 携带 依赖 ， 或 者 

(2) 循环 的 索引 变量 (拥有 小 的 跨 距 ) 出 现在 一 个 多 维 数组 的 连续 维 中 ， 而 不 出 现在 其 
他 的 维 中 。 


cs 
~J 
© 
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procedure StripMineAndInterchange(L, m, k, o, S) 


HL={Ly, Ly, ..., Lm EEZ REIRE 
1 LÆRD BRA 
/ ZL。 是 外 层 循环 ， 在 循环 交换 后 ， 这 个 循环 刚好 在 被 分 段 的 循环 之 内 
/ 5 是 一 个 记录 分 段 大 小 的 变量 ; 它 的 值 必须 是 正 值 
令 到 的 循环 头 是 
DO I=L, N, D; 
将 这 个 循环 分 为 两 个 循环 ， 一 个 是 对 分 段 进 行 迭 代 的 循环 : 
DO I=L, N, S*0D 
和 一 个 在 分 段 内 进行 迭代 的 循环 : 
DO i=I, MIN (I+S * D-D, N), D 
围绕 循环 体 ; 
将 对 分 段 进行 迭代 的 循环 交换 到 刚好 在 忆 外 的 位 置 ; 
end StripMineAndInterchange 





图 9-2 循环 分 段 和 交换 的 算法 





图 9-3 循环 分 段 和 交换 的 合法 性 


在 第 一 种 情形 中 ， 对 于 每 个 引用 ， 如 果 它 是 至 少 一 个 循环 携带 依赖 的 目标 ， 则 其 不 命中 次 数 
的 减少 与 循环 的 分 段 个 数 N 成 比例 。 在 第 二 种 情形 中 ， 如 果 引 用 不 是 第 一 种 情形 涵盖 的 任何 依 
赖 的 目标 ， 不 命中 次 数 的 减少 与 商 速 缓存 行 的 大 小 8 成 比例 。 

由 于 有 分 段 循环 引入 的 不 命中 ， 循 环 分 段 和 交换 也 是 伴随 有 代价 的 。 对 于 每 个 引用 组 ， 
存在 有 两 种 可 能 的 代价 : 

(1) 对 于 每 个 引用 ， 如 果 它 是 一 个 被 内 层 循 环 携带 的 依赖 的 目标 ， 可 能 会 导致 M/3 次 不 命 
中 ， 其 中 MM 是 内 层 循环 的 迭代 次 数 ， 而 5 是 分 段 的 大 小 。( 我 们 假设 5 是 b 的 一 个 整 倍数 。) 

(2) 对 于 每 个 引用 ， 如 果 它 不 是 循环 携带 依赖 的 目标 ， 但 是 内 层 循环 的 索引 变量 出 现在 
其 连续 维 (的 下 标 表达 式 ) 中 ， 由 于 分 段 的 界限 与 高 速 缓存 行 不 对 齐 的 可 能 性 ， 所 以 可 能 引 
入 M/S 次 不 命中 。( 如 果 分 段 的 界限 与 高 速 缓存 行 是 对 齐 的 ， 不 会 引入 额外 的 不 命中 。) 

所 以 ， 引 入 的 总 的 不 命中 次 数 大 约 是 RoM/S， 其 中 Ro 是 内 层 循环 中 无 依赖 引用 的 个 数 。 总 
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的 节省 的 不 命中 次 数 是 

RN+RN(1+-) =(R, RN- ŽA 
FEHR 22 Bb Ee ORE AR Be MAAAR. mR D RA E ik BE HDE E 
何 循环 携带 依赖 的 目标 的 引用 的 总 数 。 如 果 N 和 MM 的 大 小 是 可 比 的 ， 则 当 循 环 分 段 和 交换 无 法 
进行 有 效 性 测试 时 ， 在 外 层 循 环 导致 的 减少 的 引用 总 数 比 其 在 最 内 层 循环 减少 的 携带 引用 次 
数 要 小 ， 减 小 的 倍数 与 分 段 的 大 小 可 比 。 所 以 ， 很 多 研究 者 对 于 任何 可 以 实施 循环 分 段 的 循 
环 进行 分 段 ， 以 提高 重用 性 [276]。 


9.3.4 一 个 简单 的 分 块 算法 
上 一 小 节 的 结果 使 我 们 有 了 一 个 简单 的 分 块 算法 ， 如 图 9-4 所 示 。 本 质 上 ， 这 个 算法 只 是 
不 断 进行 循环 分 段 和 交换 ， 直 至 再 也 没有 任何 一 个 原始 循环 具有 重用 。 


procedure BlockLoops(L, m) 
ML = { Lo, ey Lm} 是 将 对 其 实施 变换 的 循环 僻 套 ， 它 已 利用 9.2 节 中 的 算法 排列 成 最 好 的 存储 顺序 ; 
fori:=m+1to 1 by — 1 do begin 
放 在 循环 二 中 有 重用 then begin 
令 o> i 一 1 是 上 -1 可 以 移动 到 其 外 层 的 最 外 层 循环 的 索引 变量 ; 
if o > i then begin 


FS, 1 是 一 个 新 的 变量 ; 
StripMineAndInterchange(L, m,i— 1,0o,S;.1); 


end 
end 
end 
end BlockLoops 


图 9-4 简单 的 分 块 
让 我 们 看 一 看 对 于 实施 循环 交换 后 的 矩阵 乘法 ， 上 述 算法 是 如 何 实施 的 : 


00 J=1,N 
DOK =1,N 
oor =1,N 
C(I, J) = C(I, J) + ACI, K) * B(K, J) 
ENDDO 
ENDDO 
ENDDO 


在 选择 最 内 层 循环 后 ， 由 于 对 C(I,0) 的 重用 和 对 8B(K,J) 邻 接 引用 ， 所 以 次 最 内 层 循环 
(K- 循 环 ) 显然 也 带 有 重用 。 进 而 ， 我 们 对 I- 循环 进行 分 段 ， 并 将 段 循环 一 直 移动 到 最 外 层 : 


DOI=1,N,S 
DOJ=1,N 
DOK=1,N 
DO ii = I, MIN(I + S - 1, N) 
C(ii, J) = CCii, J) + ACii, K) * B(K, J) 
ENDDO 
ENDDO 
ENDDO 
ENDD0 
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由 于 A(ii,K) 的 自 输入 依赖 ，J- 循 环 也 具有 少量 的 重用 。 这 种 重用 可 以 通过 对 K- 循 环 实施 
循环 分 段 和 交换 来 发 扬 : 
DOK=1,N,T 
DOI=1,N, S 
DOJ=1,N 
DO kk =K, MIN(K + T- 1, N) 
DO ii = I, MINI+S- 1, N) 
Cif, J) = C(ii, J) + ACii, kk) * B(kk, J) 
ENDDO 
ENDDO 
ENDDO 
ENDDO 
ENDDO 


这 个 循环 的 高 速 缓存 不 命中 的 总 次 数 可 以 用 9.2 节 中 给 出 的 各 种 代价 公式 来 估计 。 在 内 层 
循环 中 ， 我 们 知道 对 于 数组 C 和 A 各 自 共 有 Sb 次 不 命中 ， 而 对 于 数组 B 则 有 1 次 不 命中 。 假 设 S 
是 够 小 ，kk- 循 环 使 [数组 的 不 命中 次 数 乘 以 ] ，A 数 组 的 不 命中 次 数 乘 以 T， 而 8 数组 的 不 命中 
次 数 乘 以 Tb。J- 循 环 使 数组 C 和 8 的 不 命中 次 数 乘 以 N， 而 数组 A 的 不 命中 次 数 乘 以 1。 外 面 两 
层 循环 使 不 命中 次 数 乘 以 NVST。 这 三 个 引用 组 的 总 的 不 命中 次 数 如 表 9-2 的 总 结 。 


表 9-2 “分 块 矩 阵 乘法 存储 分 析 


循环 c(I,J) ACI,K) B(K,J) 总 次 数 

ii S/b S/b 1 2S/b+1 

kk S/b ST/b T/b S/b+ST/b+T/b 

J NS/b ST/b NT/b NS/b+ ST/b+NT/b 

I N?/b NT/b N?T/(Sb) N?/b+NT/b+N?T/(Sb) 
K N?/ (Tb) N?/b N3/(Sb) N3/(Tb) + N3/(Sb) + N2/b 





MEST, AP READE AERIS RA BAA i BAK LAND + NP) 
有 一 个 明显 的 改善 ， 不 命中 次 数 降低 的 因子 是 5。 而 且 ， 这 接近 于 能 保存 一 个 $ x SRR 
存 最 可 能 的 复杂 性 。 
9.3.5 带 倾斜 的 分 块 

有 些 循 环 由 于 不 能 进行 交换 而 不 能 分 块 。 下 面 是 一 个 简单 的 例子 : 


DOI=1,N 
DOJ=1,M 
AC) + 1) = (ACI) + ACJ + 1))/2 
ENDDO 
ENDDO 
这 个 循环 的 依赖 方向 矩阵 是 
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这 个 矩阵 产生 图 9-5$ 中 显示 的 依赖 模式 。 





图 9-5 例子 中 的 依赖 模式 


循环 置换 过 程 对 这 些 循环 无 法 产生 作用 ， 由 于 循环 不 能 进行 交换 ， 所 以 这 些 循环 也 不 能 
进行 分 块 。 如 果 我 们 希望 增加 这 个 循环 伐 套 中 的 重用 的 数量 ， 内 层 循环 可 以 对 外 层 循 环 倾斜 ， [485 引 
DOI=1,N 
00 j=I,M+I-1 
A(j - 1+ 2) = (A(j-I+1)+A(j-I+2))/2 


ENDDO 
ENDDO 
这 使 得 循环 可 以 进行 交换 。 因 此 ， 循 环 分 段 和 交换 也 就 可 以 实施 了 。 下 面 是 进行 了 循环 分 段 
步 又 后 得 到 的 循环 : 
DOI=1,N 


DOj=#I,M+I-1,$ 
DO jj = j, MIN(j +S-1,M+I-1) 
A(jj - 1+ 2) = (ACjG - T+ 1) + ACGZ- 1+ 2))/2 
ENDDO 
ENDDO 
ENDDO 


将 对 分 段 循环 向 外 交换 ， 产 生 
DOj=1,M+N-1, 5 
DO I = MAX(1, j - M+ 1), MING), N) 
DO jj =j, MING +S-1,M+1-1) 
A(jj - I+ 2) = (ACjj - 1+ 1) + ACGJG- 1+ 2))/2 
ENDDO 
ENDDO 
ENDDO 


1X ARTE KA GED BT LAA FA EARE. DR eg OB AR BE E MN DUK A ah , 
改进 后 的 版 本 产生 的 不 命中 次 数 接近 于 
(S/b+1) (M+N)/S = (M+ N) (1/b + 1/S) 
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这 个 结果 达到 一 个 数量 级 的 改善 。 分 块 的 效果 可 以 通过 图 9-6 显 示 的 修改 后 的 依赖 图 看 到 。 











图 9-6 倾斜 和 分 块 后 的 依赖 模式 


在 实际 使 用 中 ， 虽 然 倾斜 变换 的 应 用 可 以 获得 很 好 的 效果 ， 但 是 为 了 分 块 的 目的 而 应 用 
倾斜 变换 的 机 会 是 很 少见 的 [275]。 我 们 建议 在 不 可 能 用 分 块 方法 获得 其 他 维 的 重用 的 情况 下 
使 用 倾斜 变换 。 这 是 图 9-7 的 算法 使 用 的 方法 。 


procedure BlockLoopsWithSkewing(L, m) 
WL= {Li Lay o Lm ERMA REPRO MAKE, EFA .2 45 BP HE ae RE EF MOL: 
for i:=m-+1 to 1 by- 1 do begin 
if 在 循环 L 中 有 重用 then begin 
令 oz2i- 1 是 Li- 1 可 以 移动 到 最 外 层 循 环 的 循环 索引 变量 ; 
if o > i then begin 
令 S -是 一 个 新 的 变量 ; 
StripMineAndInterchange(L, m,i— 1,0, S;-1); 


else if i= m+ 1 then begin 
At FLARRL, - 15 
令 5;-1 是 一 个 新 的 变量 ; 
StripMineAndInterchange(L, m,i-1, 0, S;-1); 


end 
end 
end 
end BlockLoops WithSkewing 





图 9-7 带 倾斜 的 分 块 


9.3.6 循环 合并 和 对 齐 
480 在 8.6 节 中 详细 介绍 过 的 循环 合并 ， 在 与 面向 高 速 缓存 的 分 块 技术 协同 使 用 时 ， 对 于 提高 
487 存储 的 层次 结构 管理 性 能 也 是 非常 有 用 的 。 在 许多 例子 中 ， 如 果 两 个 循环 中 任何 一 个 都 可 以 
利用 分 块 来 提高 层次 存储 结构 的 性 能 ， 这 两 个 循环 可 以 先 合 并 ， 然 后 再 分 块 ， 在 某 些 情形 中 ， 
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这 种 方法 可 以 使 性 能 倍增 。 
如 8.6.2 小 节 中 的 说 明 ， 利 用 对 齐 可 以 增加 循环 合并 的 机 会 。 我 们 通过 一 个 简单 的 例子 解 
释 这 一 点 ， 这 个 例子 首先 对 一 个 两 维 数组 初始 化 ， 后 面 接着 做 内 部 松弛 。 
DOI=1,N 
DOJ=1, N 
Sı A(J, 1) = AINIT(J, 1) 
ENDDO 
ENDDO 
DOI=2,N-1 
DOJ=2,N-1 


S2 ACJ, I)=(A(J+1, I+1)+A(W-1, I-1))*0.5 
ENDDO 
ENDDO 
依照 8.6.2 小 节 中 的 策略 ， 我 们 能 够 将 这 两 个 循环 对 齐 ， 使 得 语句 S: 中 的 第 二 个 引用 与 语 
名 $51 中 的 赋值 对 齐 : 
DO1=0,N-1 
DOJ=0,N-1 
S: A(J +1, I+ 1)=ANIT(J +1, I+1) 
ENDDO 
ENDDO 


DOI=2,N-1 
d0J=2,N-1 


Sz ACJ, I)=(A(J+1, I+1)+A(J-1,1-1))*0.5 
ENDDO 
ENDDO 
现在 ， 我 们 可 以 合法 地 将 这 两 个 循环 嵌 套 合并 ， 得 到 
DOI =0, 1 


DOJ=0,N-1 
A(J + 1, I +1)= AINIT(J + 1, I + 1) 
ENDDO 
ENDDO 
DOI=2,N-1 
A(1, I + 1) = AINIT(1, I + 1) 
A(2, I + 1) = AINIT(2, I + 1) 
DOJ=2,N-1 


Si A(J+1,I+1)= AINIT(J + 1,1+1) 
S2 A(J, I)=(A(J+1, I+1)+A(J-1,1-1))*0.5 
ENDDO 
ENDD0 


当 内 层 循环 分 块 后 ，A 的 每 个 高 速 缓存 行 都 只 导致 一 次 不 命中 ， 而 原来 的 循环 中 每 次 迭代 发 生 
两 次 不 命中 。 
9.3.7 结合 其 他 变换 的 分 块 

分 块 可 以 和 本 书 中 讨论 的 其 他 变换 技术 结合 ， 从 而 产生 非常 有 效 的 优化 。 此 处 我 们 将 讨 
论 其 中 的 三 种 。 





下 
" [XO 


334 ZF 


分 块 与 寄存 器 使 用 的 增强 . 

此 处 描述 的 分 块 变换 可 以 相当 容易 地 与 第 8 章 介 绍 的 标量 替换 与 展开 和 压 紧 技术 相 结 合 。 
由 于 寄存 器 的 管理 只 是 利用 了 时 间 局 部 性 ， 相 对 于 也 包含 非 时 间 的 空间 局 部 性 的 高 速 缓存 管 
理 而 言 ， 寄 存 器 的 管理 是 很 特殊 的 。 此 外 ， 高 速 缓 存 管理 比 寄 存 器 管理 要 考虑 更 多 的 依赖 ; 
例如 ，( 在 大 多 数 高 速 缓存 的 设计 中 ) 一 个 反 依赖 会 引起 高 速 缓存 的 重用 ， 但 不 会 引起 寄存 器 
的 重用 。 所 以 ， 寄 存 器 管理 可 以 对 完成 了 高 速 缓存 管理 而 留 下 的 循环 实施 。 不 过 ， 由 于 高 速 
缓存 管理 试图 在 时 间 和 空间 局 部 性 两 方面 都 进行 优化 ， 对 寄存 器 管理 有 意义 的 循环 应 该 是 在 
高 速 缓存 管理 的 变换 完成 后 靠近 最 内 层 循环 位 置 的 循环 。 

存储 层次 结构 的 多 个 级 别 

除 寄存 器 之 外 ， 在 现代 计算 系统 中 通常 可 以 发 现 多 级 的 高 速 缓 在 。 此 外 ， 不 同 的 存储 有 
着 差异 非常 大 的 访问 时 间 。 在 下 一 小 节 将 讨论 到 的 并 行 计算 机 系统 是 一 种 典型 的 “ 非 一 致 ” 
存储 访问 时 间 的 结构 。 在 一 个 典型 的 并 行 计 算 机 系统 中 ， 对 异地 存储 的 访问 时 间 可 以 比 对 本 
地 存储 的 访问 时 间 长 数 倍 。 例 如 ， 在 一 个 有 64 个 结 点 、128 个 处 理 器 的 SGI Origin 2000 上 ， 对 
异地 存储 的 访问 平均 是 对 本 地 存储 的 访问 时 间 的 三 倍 [251]。 在 这 种 情况 下 ， 针 对 多 于 一 个 级 
别 的 高 速 缓存 分 块 技术 可 能 有 作用 。 然 而 ， 除 非 在 最 快速 的 高 速 缓存 级 别 不 比 下 一 级 别 的 高 
速 缓存 快 得 多 ， 或 者 最 快 的 级 别 容量 过 小 以 至 于 不 能 起 到 作用 ， 分 块 的 实质 是 首先 以 最 快速 
的 高 速 缓存 为 目标 进行 变换 ， 然 后 再 处 理 其 他 的 高 速 缓存 层次 。 在 这 种 情形 中 ， 可 能 会 对 由 
循环 分 段 和 交换 变换 得 到 的 对 分 段 的 循环 再 进行 分 段 变换 ， 以 得 到 对 大 容量 的 二 级 高 速 缓存 
的 进一步 的 重用 。 另 一 种 方案 是 ， 如 果 第 一 级 高 速 缓存 容量 太 小 ， 以 至 于 在 每 一 维 中 都 无 法 
充分 得 到 重用 ， 则 更 大 容量 的 高 速 缓存 可 以 用 来 获得 某 种 程度 上 的 未 发 掘 的 重用 性 。 

将 二 级 的 存储 看 成 是 内 存 层次 结构 的 一 部 分 也 是 可 能 的 。 已 有 的 经 验 显 示 ， 利 用 类 似 于 
优化 高 速 缓存 中 描述 的 变换 技术 ， 一 个 典型 的 核 外 计算 能 够 提高 性 能 200 倍 或 更 多 [173] 。 

分 块 与 并 行 化 

当 高 速 缓存 管理 和 并 行 化 相 结合 时 ， 会 引起 两 个 关键 问题 。 

(1) 如 果 被 并 行 的 维 是 连续 访 存 的 维 ， 则 增加 并 行 性 可 能 会 妨碍 存储 户 次 结构 的 性 能 。 

(2) 如 果 每 个 处 理 器 使 用 的 数据 不 能 很 好 地 和 高 速 缓存 行 的 边界 对 齐 ， 即 使 处 理 器 实际 
上 并 设 有 访问 同一 个 数据 ， 但 两 个 或 多 个 处 理 器 可 能 争 用 包含 这 些 处 理 器 需要 使 用 的 数据 的 
同一 个 高 速 缓存 行 。 这 种 现象 称 为 假 共享 ， 它 是 共享 存储 的 并 行 机 器 的 一 个 重大 问题 。 

既然 最 经 常 提 到 的 未 能 充分 挖掘 并 行 计 算 机 的 性 能 的 原因 是 低下 的 单 计 算 结 点 的 性 能 ， 
因此 在 生成 面向 并 行 计算 机 的 代码 时 ， 把 增强 数据 局 部 性 作为 非常 优先 的 工作 是 合乎 情理 的 。 
这 意味 着 ， 如 果 程 序 中 有 多 个 维 可 以 并 行 ， 则 在 并 行 化 时 应 避免 访问 跨 距 为 1 的 那 一 维 。 

如 果 程 序 语言 的 语义 允许 ， 假 共享 也 可 以 通过 数据 的 非 连 续 分 配 而 减少 。 例 如 在 多 维 数 
组 中 ， 如 果 列 被 不 同 的 处 理 器 访问 ， 则 有 助 于 保证 每 一 列 从 一 个 新 的 高 速 缓存 行 开始 。 这 种 
处 理 违反 了 Fortran 语 言 中 的 顺序 和 存储 结合 的 限制 ， 但 是 普遍 认为 ， 这 些 语言 特性 正在 被 语 
言 所 抛弃 。 

如 果 必 须 选 择 跨 距 为 1 的 维 进行 并 行 化 ， 则 计算 应 该 根据 高 速 缓存 行 的 边界 来 进行 划分 ， 
以 避免 假 共享 的 发 生 。HPF 形 式 的 CYCLIC(k) 分 配 应 该 只 有 在 满足 下 述 条 件 时 才 被 使 用 : E 
明 的 字数 是 高 速 缓 存 行 大 小 的 整数 倍 。 

在 未 来 ， 并 行 化 工作 可 能 会 在 更 深 程度 上 处 理 存 储 层次 结构 ， 这 会 使 得 本 章 中 讨论 的 各 
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种 变换 技术 更 加 重要 。 


9.3.8 有 效 性 

通常 ， 在 可 能 的 情况 下 利用 分 块 技术 提高 高 速 缓存 的 性 能 可 以 取得 显著 的 效果 。 
Porterfield 指 出 单单 一 个 循环 分 段 和 交换 变换 ， 就 可 以 把 矩阵 乘法 中 的 高 速 缓 存 不 命中 次 数 从 
932 576 次 减少 到 40 000 次 ， 几 乎 将 程序 中 的 不 命中 完全 消除 [227]。Wolf 对 于 同样 的 程序 报告 
了 类 似 的 性 能 改善 。 

在 实际 程序 中 ， 问 题 在 于 变换 的 适用 性 。Porterfield 和 Wolf 都 指出 对 于 分 块 变换 技术 的 一 
些 简单 的 障碍 因素 常常 可 以 使 他 们 的 系统 失效 ， 导 致 许多 可 以 被 分 块 的 程序 根本 得 不 到 改善 。 
好 消息 是 对 于 那些 这 种 变换 可 以 起 作用 的 应 用 程序 ， 它 确实 可 以 得 到 非常 好 的 效果 。 例 如 ， 
对 于 8.3.8 小 节 中 讨论 的 NASA 核 心 程序 Gmtry，Wolf 的 分 块 算 法 可 以 将 性 能 提高 3 倍 ， 而 对 于 
Vpenta 程 序 ， 该 算法 得 到 了 50% 的 性 能 提高 。 

Porterfield 也 指出 即便 不 实施 分 块 ， 结 合 对 齐 技术 的 循环 合并 也 是 非常 有 力 的 。 对 于 一 个 
小 波 分 析 应 用 的 程序 WANAL1， 将 循环 交换 、 对 齐 和 合并 的 综合 使 用 ， 可 以 消除 近 一 半 的 高 
速 缓存 不 命中 。 最 近 ，Ding 报 告 在 有 带宽 限制 的 机 器 上 ， 通 过 使 用 循环 合并 ， 性 能 获得 急剧 
的 提高 [103]。 

这 些 成 功 的 例子 表明 循环 分 块 和 合并 技术 是 提高 高 速 缓存 性 能 的 可 行 之 路 。 但 是 ， 编 译 
器 必须 有 一 个 完善 的 程序 变换 库 ， 以 有 效 地 使 用 这 些 变换 。 


9.4 复杂 循环 媒 套 中 的 高 速 缓存 管理 

到 目前 为 止 ， 我 们 关注 的 是 对 矩形 循环 媒 套 的 分 块 。 不 幸 的 是 ， 现 实 中 处 理 的 循环 册 套 
不 是 都 以 这 种 良好 的 规则 形式 出 现 的 。 在 本 节 中 ， 我 们 将 集中 讨论 梯形 循环 幅 套 和 通常 在 线 
性 代数 中 用 到 的 特殊 循环 震 套 带 来 的 问题 。 


9.4.1 三 角形 的 高 速 缓存 分 块 
可 以 用 前 面 几 节 中 介绍 的 通用 过 程 对 三 角形 循环 进行 循环 分 段 ， 以 提高 高 速 缓存 的 性 能 。 
例如 ， 如 果 我 们 希望 对 8.2.2 节 中 例子 的 外 层 循 环 以 因子 K 进 行 分 段 ， 此 处 的 K 整 除外 层 循环 的 
迭代 次 数 (这 种 情况 在 前 置 循环 的 使 用 中 也 会 出 现 )。 
pOI=2,N 
DOJ=1, 1-1 
ACI, 9) = ACI, I) + ACJ, J) 
ENDDO 
ENDDO 


在 循环 分 段 后 ， 我 们 得 到 


DO I = 2，N，K 
DO ii=1I, T+K-1 
D0 J= 1, ii-1 


ACii, J) = ACii, ii) + A(J, J) 
ENDDO 
ENDDO 
ENDDO 


如 果 我 们 现在 将 中 间 的 循环 交换 到 最 内 层 的 位 置 (利用 三 角形 循环 交换 方法 )， 可 以 得 到 
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DO I =2, N, K 
DOUJ=I,1+K-1 
DO ii = MAX(J + 1, I), I+K-1 
ACii, J) = ACii, ii) + AQ, J) 
ENDDO 
ENDDO 
ENDDO 


假设 精心 选择 MK， 这 种 形式 应 该 有 好 的 高 速 缓 存 性 能 。 


9.4.2 特殊 用 途 的 变换 
在 线性 代数 中 遇 到 的 很 多 类 型 的 程序 是 相当 特殊 的 。 然 而 ， 通 过 研究 这 些 程 序 可 以 学 到 
很 多 。 我 们 从 对 LU 分 解 的 分 析 开 始 ，LU 分 解 是 解 线性 方程 组 最 常用 的 算法 。 
大 多 数 版 本 的 LU 分 解 使 用 的 是 某 种 形式 的 选 主 元 法 以 保证 稳定 性 。 然 而 ， 选 主 元 法 带 来 
了 特殊 的 问题 ， 我 们 在 后 面 会 讨论 。 目 前 ， 我 们 首先 以 一 个 不 使 用 选 主 元 法 的 算法 开始 我 们 
的 讨论 。 
在 不 使 用 选 主 元 法 的 LU 分 解 中 ， 中 心 循 环 嵌 套 如 下 : 
DOKk=1,N-1 
! 主 元 总 是 A(K, K) 
DOI=K+1,N 
Sı ACI, K) = ACI, K) / ACK, K) 
ENDDO 
DOJ=K+1,N 
DOI=K+1,N 
Sz ACL, J) = ACI, J) ~ ACL, K) * ACK, J) 
ENDDO 
ENDDO 
ENDDO 


ARGH BENE BA, PRES — AB 5) RE BUTE S A a PACT KOF 
A(K,J) 的 重用 。 为 了 得 到 重用 ， 你 应 该 对 外 层 循环 K 进 行 分 段 ， 并 将 段 内 的 循环 向 内 交换 到 第 
二 个 循环 嵌 套 中 J- 循 环 和 I- 循 环 的 内 县 。 实 施 循 环 分 段 后 ， 我 们 得 到 
DOK =1,N-1,58 
DO kk =K,K+S-1 
! 主 元 总 是 A(kk，kk) 
DOI=kk+1, N 
S, ACI, kk) = ACI, kk) / A(kk, kk) 
ENDDO 
DOJ=kk+1,N 
DOI=kk+1,N 
Sz ACI, J) = ACI, J) - ACL, kk) * A(kk, J) 
ENDDO 
ENDDO 
ENDDO 
ENDDO 


为 了 将 kk 循环 向 内 交换 ， 我 们 必须 首先 将 它 分 布 在 两 个 循环 典 套 上 。 但 是 ， 由 于 存在 包 
含 语句 S, 和 S: 的 依赖 环 ， 这 是 不 能 允许 的 。 由 于 A(I,kk ) 的 两 次 出 现 ， 存 在 一 个 循环 无 关 的 依 
赖 看 起 来 是 显而易见 的 。 不 明显 的 是 ， 由 于 J >kk， 语 句 5; 中 将 A(I,J) 存 储 到 的 位 置 在 kk 循环 
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后 面 的 选 代 中 要 执行 读 人 。 
这 表明 设想 的 分 块 似乎 是 不 可 能 的 。 但 是 ， 如 果 我 们 注意 到 K 循 环 的 每 次 迭代 中 ， 语 句 S: 
生成 
ACK+1:N, K+1:N) 


而 语句 $1 使 用 
A(K+1:N, K:K+S—1) 


这 意味 着 ， 在 使 用 S: 的 输出 的 迭代 范围 外 ， 不 存在 依赖 环 。 所 以 我 们 将 围绕 S: 的 内 层 循环 代 套 
通过 索引 集 分 裂 分 为 两 个 循环 ， 这 组 循环 嵌 套 中 的 第 二 个 不 产生 在 S: 中 用 到 的 值 : 


DOK=1,N-1,5 
DOkk=K,K+S-1 

! 主 元 总 是 A(Kk，kk) 

DOI=kk+1,N 
Sı A(T, kk) = ACI, kk) / A(kk, kk) 
ENDDO 
DOJ =kk+1,K+S-1 
DO I=kk+1, N 


Sz ACI, J) = ACI, J) - ACI, kk) * A(kk, J) 
ENDDO 
ENDDO 
DO J=K+S, N 
DO IT =kk +1, N 493 
S; A(I，J) = ACI, J) ~ ACI, kk) * A(kk, J) 
ENDDO 
ENDDO 
ENDDO 
ENDDO 


现在 kk 循环 可 以 被 分 布 ， 产 生 一 个 循环 嵌 套 包含 S 和 S$:， 另 一 个 包含 S:: 


DOK=1,N-1,5 
DO kk=Kk,K+S-1 
! 主 元 总 是 A(kk，kk) 
DOI=kk+1,N 
S; ACI, kk) = ACI, kk) / A(kk, kk) 
ENDDO 
DOJ=kk+1,K+S-1 
DOI =kk +1, N 
S2 ACI, J) = ACI, J) - ACI, kk) * A(kk, J) 
ENDDO 
ENDDO 
ENDDO 
DO kk =K, K+S-1 
DOJ=K +5, N 
DO I = kk +1, N 
S3 ACI, J) = ACI, J) - ACI, kk) * A(kk, J) 
ENDDO 
ENDDO 
ENDDO 
ENDDO 
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最 后 ， 在 最 终 的 循环 伐 套 中 ，kk 循 环 可 以 被 移动 到 I- 循 环 和 J- 循 环 的 内 部 : 


DOJ=K+S,N 
DOI=K+1,N 
DO kk = K, MIN(I - 1, K+S-1) 
S; ACL, J) = ACI, J) - ACI, kk) * ACkk, J) 
ENDDO 
ENDDO 
ENDDO 


内 层 循环 极 大 地 提高 了 高 速 缓存 的 重用 性 。 
根据 Carr 和 Kennedy 在 MIPS M120 上 进行 的 实验 ， 对 于 含有 100 个 元 素 的 数组 ， 改 进 后 的 
494] ”代码 达 得 到 的 计时 在 表 9-3 中 给 出 。 , 
我 们 注意 到 ， 与 Dan Sorensen 开 发 的 作为 ROS LU 分 解 的 计时 
LAPACK 的 实现 工作 的 一 部 分 的 手工 版 本 相 比 ， mayer on sec 
自动 的 方法 得 到 一 个 不 同 并 稍 好 一 些 的 版 本 。 Sorensen F SIRES 6 69 cee 
另外 ， 对 变换 的 结果 使 用 三 角形 式 的 展开 和 压 循环 展开 和 压 紧 后 的 代码 3.55 sec 
E (这 种 方法 显然 也 可 以 用 于 Sorensen 版 本 ) 加 速 比 2.35 
得 到 的 总 加 速 比 是 2.35。 一 一 
9.5 软件 预 取 


即便 程序 重 构 能 取得 应 有 的 效能 ， 仍 然 不 能 消除 某 些 类 型 的 高 速 缓存 不 命中 : 

(1) 对 首次 使 用 数据 不 命中 

(2) 对 某 种 在 编译 时 无 法 判定 的 被 重用 的 数据 不 命中 

下 面 的 循环 给 出 上 述 每 种 不 命中 的 例子 : 

00 I=1, N 

ACI) = B(LOC(I)) 

ENDDO 
当 对 A(I) 的 写 操作 映射 到 一 个 新 的 高 速 缓 存 行 时 ， 由 于 是 在 这 个 循环 嵌 套 中 第 一 次 使 用 A(I)， 
所 以 会 导致 不 命中 。 如 果 L0C(I) 中 的 值 有 重复 ， 则 B(L0OC(I) ) 可 能 具有 大 量 的 时 间 重 用 性 。 
但 是 ， 由 于 L0C(I) 的 值 在 编译 时 是 不 知道 的 ， 因 此 在 编译 时 通过 重 构 循 环 嵌 套 来 发 气 这 种 重 
用 性 是 困难 的 。 

为 了 改善 这 些 问 题 ， 在 20 世 纪 80 年 代 后 期 和 90 年 代 前 期 的 机 器 设计 者 在 现代 处 理 器 中 引 
入 了 预 取 指令 。 一 条 预 取 指令 的 典型 实现 类 似 于 读 入 指令 ， 但 是 不 会 将 一 个 值 放 入 寄存 器 。 
实际 上 ， 预 取 是 把 包含 指令 指定 的 存储 器 中 目标 地 址 的 高 速 缓存 行 预先 读 入 到 高 速 缓 存 中 。 
第 二 点 不 同 是 预 取 操 作 通 常 不 会 导致 处 理 器 的 停顿 一 如 果 目 标 数据 不 是 在 高 速 缓 存 中 ， 将 

no) 包含 这 些 数 据 的 高 速 缓存 块 读 入 到 高 速 缓存 中 的 操作 是 和 其 他 操作 并 行 执行 的 。 因 此 预 取 

指令 提供 一 种 将 内 存 访问 和 其 他 的 处 理 器 指令 重 登 执行 的 机 制 。 

为 了 使 用 处 理 器 可 用 的 预 取 指 令 ， 程 序 员 或 编译 器 必须 生成 预 取 指 令 一 一 完成 这 个 任务 的 
处 理 过 程 称 为 软件 预 取 (software prefetching )。 如 果 编 译 器 能 够 为 循环 中 使 用 的 每 个 高 速 组 
存 行 在 程序 中 足够 提前 的 位 置 插入 一 条 预 取 指 令 ， 所 有 不 命中 的 延迟 都 可 以 被 消除 (假设 高 
速 缓存 容量 足够 大 )。 由 于 仅 靠 程序 重 构 技 术 对 这 些 循环 已 经 没有 作用 了 ， 此 时 预 取 的 价值 是 


O ”理想 情况 下 ， 预 取 不 会 由 于 越界 访问 而 导致 异常 的 发 生 。 
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显然 的 。 < 

虽然 预 取 有 明显 的 优点 ， 但 它 也 有 一 些 显著 的 缺点 : 

(1) 预 取 增加 了 必须 执行 的 指令 条 数 ， 每 次 预 取 都 需要 为 预 取 本 身 增 加 一 条 指令 ， 并 可 
能 为 计算 预 取 的 地 址 而 增加 数 条 指令 。 

(2) 预 取 可 能 使 有 用 的 高 速 缓存 行 被 过 早 地 替换 掉 。 

(3) 预 取 读 入 的 高 速 缓存 行 可 能 在 使 用 前 被 替换 掉 ， 或 读 人 一 些 根本 不 会 使 用 的 高 速 缓 
存 行 ， 不 必要 地 增加 存储 访问 流量 。 
为 了 将 这 三 方面 缺点 的 影响 降 至 最 低 限度 ， 我 们 必须 小 心地 设计 预 取 的 算法 ， 使 得 (a) 预 取 
的 次 数 与 实际 的 需要 相近 ，(b) 数据 不 会 过 早 地 被 预 取 ，(c) 预 取 很 少 被 不 需要 预 取 的 引用 
所 调用 。 

在 后 面 几 小 节 中 ， 我 们 给 出 了 一 个 基于 Callahan，Kennedy 和 Porterfield[61] 以 及 Mowry 
[216] 的 工作 的 预 取 算 法 。 然 后 ， 根 据 这 些 研 究 组 得 到 的 实验 结果 ， 我 们 将 讨论 软件 预 取 的 有 
效 性 。 


9.5.1 一 个 软件 预 取 算 法 

通常 ， 预 取 算法 将 试图 对 循环 中 的 引用 插入 预 取 指令 。 由 于 同一 个 源 程序 引用 点 导致 
了 对 不 同 内 存 位 置 的 访问 的 特点 ， 对 下 标 变量 的 引用 是 预 取 的 重要 目标 。 但 是 ， 由 于 高 速 
缓存 块 的 长 度 通常 超过 一 个 字 的 长 度 ， 预 取 算法 必须 小 心地 只 对 一 个 新 的 高 速 缓存 行 的 第 
一 次 访问 生成 预 取 指 令 ， 以 免 产 生 大 量 的 无 用 的 预 取 操作 。 因 此 ， 有 效 的 预 取 算法 的 关键 
步骤 是 

(1) 精确 确定 需要 预 取 的 引用 ， 从 而 将 不 必要 的 预 取 减 至 最 少 ; 

(2) 插入 预 取 指 令 的 位 置 足够 提前 ， 使 得 数据 到 达 既 不 太 迟 ， 也 不 太 早 。 
其 中 的 第 一 步 称 为 预 取 分 析 ， 而 第 二 步 称 为 预 取 持 入 。 在 本 节 的 后 面 将 详细 讨论 这 两 个 阶段 。 

分 析 阶 段 必 须 精 确 决 定 哪 一 个 引用 需要 预 取 ， 并 对 程序 进行 变换 ， 使 得 需要 预 取 的 部 分 
与 不 需要 预 取 的 部 分 区 分 开 来 。 例 如 ， 考 虑 下 面 的 循环 嵌 套 : 

DOI=1,N 

DOJ = 2, M 
ACJ, 1) = ACJ, I) + BCU) * A(J - 1, 1) 
ENDDO 

ENDDO 
由 于 对 A(J,I) 的 引用 在 内 存 中 是 顺序 访问 的 ， 每 一 个 高 速 缓存 行 都 会 产生 一 次 不 命中 。 对 
8B(J) 的 引用 ， 每 一 个 高 速 缓存 行 也 会 有 一 次 不 命中 ， 这 个 行 数 要 乘 上 J- 循 环 执行 的 次 数 。 

这 意味 着 ， 即 便 在 I- 循 环 的 每 次 迭代 中 B(J) 的 值 被 重用 ， 但 是 如 果 循 环 上 界 M 足 够 大 ， 上 
述 重用 是 不 能 实现 的 。 通 过 对 J- 循 环 实施 循环 分 段 和 交换 的 变换 ， 我 们 可 以 得 到 这 种 重用 性 ， 
但 是 段 内 循环 的 大 小 必须 仔细 选择 ， 从 而 不 会 发 生 9.3 节 中 描述 的 越 出 高 速 缓 在。 让 我 们 假设 
实施 了 这 个 变换 ， 并 得 到 了 下 面 的 代码 : 


DO J=2, M, S$ 
JU = MIN(J + S$ - 1, M) 
DOI=1,N 


00 jj = J, JU 
ACjj, D) = A(jj, I) + B(jj) * A(jj - 1, I) 
ENDDO 
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ENDDO 
ENDDO 


一 旦 完成 了 这 个 变换 ， 除 了 I 循环 的 每 一 次 执行 的 第 一 个 迭代 而 外 ， 我 们 已 经 消除 了 访问 
BC jj AKER. 

但 是 ， 由 于 A(jj,I) 和 A(jj-1,I) 这 个 循环 中 仍然 有 一 些 的 不 命中 ， 这 是 可 以 通过 预 取 改 
善 的 。 分 析 的 目的 是 确定 循环 嵌 套 中 的 哪些 选 代 需 要 对 A 的 一 次 预 取 ， 而 哪些 选 代 需 要 对 B 进 
行 预 取 。 下 一 节 将 讨论 如 何 对 预 取 进 行 调度 。 

如 同 我 们 前 面 指出 的 ， 在 程序 中 有 两 类 常见 的 局 部 性 。 当 存在 对 同样 的 内 存 位 置 的 重用 
时 称 为 时 间 局 部 性 ， 当 两 个 引用 访问 相同 的 高 速 缓存 行 时 称 为 空间 局 部 性 。 在 上 面 的 例子 中 ， 
由 于 A(jj-1,I) 和 A(jj,I) 在 循环 的 相 邻 迁 代 中 访问 的 是 相同 的 位 置 ， 所 以 这 两 个 引用 显现 时 
间 局 部 性 。 但 是 ， 在 和 -循环 的 相 邻 迭代 中 对 A(jj,1) 的 引用 存在 空间 局 部 性 。 如 果 高 速 缓 存 
行 的 长 度 是 L 个 字 ， 则 对 A( 半 ,1) 的 引用 每 L 次 迭代 会 产生 一 次 不 命中 。 

如 果 我 们 采用 8.3 节 中 的 为 了 提高 寄存 器 分 配 的 性 能 的 对 时 间 局 部 性 的 分 析 类 似 的 分 析 方 


法 ,我 们 会 发 现 对 A(jj,I) 的 引用 (无论 是 读 或 是 写 ) 和 对 A(jj-1,1) 的 引用 构成 了 一 个 单独 


的 名 字 划 分 ， 因此 形成 了 一 个 时 间 重 用 组 。 进一步 ， A( jj,1) 被 看 成 是 这 个 组 的 生成 者 。 因 此 ， 
目标 是 决定 在 哪些 迭代 预 取 A(jj,I)。 请 注意 ， 对 A(jj-1,I) 的 引用 只 是 在 jj 循环 的 第 一 次 选 
代 需 要 一 次 预 取 。 

目前 ,假设 对 于 I 的 每 个 值 ，A(1,1) 位 于 一 个 高 速 缓 存 行 的 边界 ， 并 且 5 是 高 速 缓存 行 长 
度 L 的 倍数 ， 我 们 可 以 看 到 在 jj- 循 环 中 满足 hoD(jj-J,L)=L-1 的 选 代 或 0+L-1，J+2 * L-1, 
J+3 * 上 -1 等 的 迭代 ， 需 要 对 A(jj,1) 进 行 预 取 。 

对 于 B(jj ) 的 引用 情况 如 何 呢 ? 如 果 我 们 假设 B(1) 位 于 一 个 高 速 缓存 的 边界 ， 则 在 I 循 环 
的 第 一 次 选 代 中 ， 我 们 在 下 列 和 迭代 中 需要 对 B 的 预 取 : 在 jj- 循 环 的 第 一 次 迭代 之 前 ， 或 每 一 
个 满足 MOD(jj-J,L)=L-1 的 迭代 或 0+L-1,， J+2*L-1, J+3 * 上 -1 等 的 迭代。 但 是 ， 由 于 选择 的 
$ 使 得 所 有 B(u:JU) 的 值 装 入 高 速 缓存 ， 我 们 可 以 在 jj- 循 环 之 前 预 取 它 们 的 全 体 。 这 个 方式 的 
实现 称 为 预 取向 量化 。 

预 取 需 求 概括 如 下 : 

(1) 当 I=l 且 jj=J+k * L-1，0<k<(JU-J)XL 时 ， 预 取 B(jj)。 换 名 话说， 在 I- 循 环 的 第 
一 次 迭代 预 取 B(J-1:JU:L)。 

(2) 对 于 所 有 的 I 和 jj=J， 预 取 A(jj-1,I)。 

(3) 对 于 所 有 的 I 和 所 有 的 jj=J+tk * L-1, 1&<k< (JU-J)/L， 预 取 A(jj,1)。 
按照 这 种 方式 决定 需要 预 取 操作 的 迭代 是 预 取 分 析 的 目标 。 

一 旦 决定 需要 预 取 的 迭代 ， 我 们 可 以 划分 循环 的 迭代 空间 ， 以 确保 只 有 在 引用 需要 的 时 
候 才 预 取 。 所 有 对 B 的 预 取 应 该 发 生 在 1- 循环 的 第 一 次 迭代 ， 可 以 将 这 个 迭代 从 循环 中 剥离 ， 
并 在 剥离 的 迭代 中 插入 预 取 。 但 是 ， 在 这 个 例子 中 ， 只 需 简 单 地 将 对 8B 的 预 取 外 提 到 I- 循环 之 
外 就 可 以 达到 同样 的 效果 。 

为 了 分 离 对 A 的 预 取 ， 我 们 需要 对 jj- 循 环 进行 分 段 ， 分 段 的 长 度 为 L[， 但 是 第 一 个 分 段 的 
长 度 为 L-1。 现 在 ， 假 设 对 于 I 的 每 个 值 ，A(1,I) 位 于 一 个 高 速 缓存 行 的 边界 ， 我 们 可 以 看 到 
下 面 循环 的 配置 可 以 得 到 希望 的 结果 : 


dO J=2, M, S$ 
JU = MIN(J +S - 1, M) 
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! 此 处 是 对 8 的 预 取 
D0OI=1,N 
! 此 处 是 对 A(J，I) 的 预 取 
! 对 齐 预 取 的 前 置 循 环 
DO jk = J, MIN(J + L - 2, JU) 
ACjk, I) = ACjk, I) + B(jk) * ACjk ~ 1, I) 
ENDDO 
00 jj = J, JU, L 
jju = MIN(jj + L - 1, JU) 
! 此 处 是 对 A(jj，I) 的 预 取 
DO jk = jj, jju 
AC jk, 1) = ACjk, I) + BC jk) * A(jk -1, 1) 


ENDDO 
ENDDO 
ENDDO 
ENDDO 
假设 每 个 预 取 被 刚好 放置 在 与 之 相关 的 引用 的 前 面 ， 预 取 放 置 的 结果 如 下 : 
DOJ = 2，M，S 


JU = MIN(J + S ~ 1, M) 
DO jj=d- 1, W, L 
prefetch(B(jj)) 
ENDDO 
DO I=1, N 
Prefetch(A(J, 1)) 
-L 对 齐 预 取 的 前 置 循 环 
DO jk = J, MIN(J +L ~ 2, JU) 
AC jk, I) = ACjk, I) + B(jk) * ACjk - 1, 1) 
ENDDO 
DO jj = J, JU, L 
jju = MIN(jj +L - 1, JU) 
prefetch(A(jj, I) 
DO jk = jj, jju 
AC3k, I) = ACjk, I) + BCjk) * A(jk -1, I) 
ENDDO 
ENDOO 
ENDDO 
ENDDO 


到 现在 为 止 ， 我 们 已 经 确定 了 预 取 数 据 被 实际 访问 前 可 以 发 出 预 取 指令 的 最 后 位 置 。 但 
是 ， 一 个 好 的 预 取 指令 放置 算法 将 把 预 取 指 令 移动 到 程序 中 足够 早 的 点 ， 以 确保 在 使 用 数据 
前 预 取 已 经 完成 了 。 在 许多 情况 下 ， 此 种 算法 需要 将 预 取 指令 跨越 几 个 选 代 进行 移动 。 大 多 
数 预 取 系 统 将 这 个 任务 留 给 指令 调度 器 ( 见 第 10 章 ) 实现 ， 所 以 在 此 我 们 对 这 个 问题 不 作 进 
一 步 讨论 。 

预 取 分 析 

我 们 的 预 取 算 法 的 分 析 阶 段 包括 确定 哪些 迁 代 将 遭遇 预 取 不 命中 。 为 了 做 到 这 一 点 ， 我 
们 将 使 用 在 8.3 节 中 介绍 的 依赖 分 析 策略 。 请 回忆 用 于 确定 名 字 划 分 和 生成 器 的 图 分 析 过 程 。 
与 那 种 情况 不 同 的 是 ， 在 处 理 高 速 缓存 时 写 操作 不 会 注销 一 个 名 字 划 分 ， 因 为 在 大 多 数 机 器 
上 ， 高 速 缓存 处 理 写 的 方式 与 处 理 读 的 方式 非常 相似 -一 如 果 要 写 人 的 高 速 缓存 块 不 在 高 速 
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缓存 中 ， 产 生 一 个 高 速 缓存 不 命中 。 因 此 ， 除 非 有 对 应 于 不 相 容 依赖 的 边 ， 否 则 图 中 不 会 有 
坏 边 。 

在 另 一 方面 ， 为 了 用 这 个 方法 进行 处 理 ， 我 们 必须 保证 不 太 可 能 与 重用 相关 联 的 边 从 图 
中 删除 ， 所 以 假设 边 的 目标 点 对 应 于 一 次 不 命中 ， 除 非 由 于 时 间 局 部 性 而 省 去 这 次 不 命中 。 

我 们 假设 在 为 了 提高 局 部 性 而 对 循环 人 九 套 实施 分 段 和 交换 后 ， 开 始 预 取 分 析 阶 段 。 如 同 
9.2 节 中 描述 的 那样 ， 这 个 处 理 过 程 必然 要 将 具有 最 好 空间 局 部 性 的 循环 移动 到 可 能 的 最 内 层 
的 位 置 。 然 后 ， 算 法 将 从 最 内 层 到 最 外 层 循环 进行 遍历 ， 以 决定 由 于 不 可 能 重用 而 必须 把 哪 
些 依赖 标记 为 “无 效 的 "。 任 何 时 候 ， 只 要 在 源 点 和 汇 点 间 被 代码 访问 的 数据 量 超过 了 假定 的 
高 速 缓存 大 小 ， 重 用 就 是 不 可 能 的 (在 这 个 算法 中 ， 通 常 假定 高 速 缓存 比 其 实际 的 大 小 要 小 ， 
得 多 ， 以 补偿 映射 的 影响 ) 。 

为 了 完成 这 个 分 析 ，Porterfield[227] 估 计 了 每 次 迭代 使 用 到 的 数据 量 ， 并 且 在 其 后 决定 溢 
出 选 代 ， 溢 出 迭代 是 指 可 以 将 其 数据 同时 放置 在 高 速 缓存 中 的 那些 迭代 个 数 多 1 的 迭代 。 任 何 
一 个 依赖 ， 如 果 其 效 值 等 于 或 大 于 溢出 迭代 的 值 ， 则 其 对 于 重用 的 目的 是 无 效 的 。 

一 旦 找 出 并 删除 了 所 有 无 效 的 边 ， 我 们 确定 所 有 不 命中 可 能 发 生 的 点 ， 这 些 点 也 是 需要 
进行 预 取 的 点 。 为 了 实现 这 个 目标 ， 我 们 必须 考虑 两 种 情况 : 

(1) 如 果 名 字 划 分 组 的 生成 者 不 包含 在 一 个 依赖 环 中 ， 每 个 返 代 都 预期 有 一 次 不 命中 ， 除 
非 在 后 续 迭 代 中 对 生成 者 的 访问 显现 出 时 间 局 部 性 ( 换 名 话说， 如 果 对 生成 引用 的 访问 是 内 存 
中 连续 的 单元 )。 这 种 情况 下 ， 在 开始 一 个 新 高 速 缓存 行 的 每 次 妈 代 中 预期 有 一 次 失效 。 

(2) 如 果 名 字 划 分 组 的 生成 者 包含 在 一 个 由 某 个 循环 携带 的 依赖 环 中 ， 则 仅 在 携带 依赖 
的 循环 的 开始 几 次 迭代 中 预期 有 一 次 不 命中 ， 迭 代 的 次 数 与 携带 依赖 的 距离 相关 。 在 这 种 情 
况 下 ， 可 以 在 携带 依赖 的 循环 前 播 和 人 一 个 对 引用 的 预 取 。 

一 个 简单 的 例子 可 以 阐明 这 两 种 情况 : 

DOJ=1,M 

DO I = 1, 32 
A(I + 1, J) = ACI, J) + C(J) 
ENDDO 

ENDDO 
对 A(I,J) 的 引用 是 一 组 引用 的 生成 者 ， 其 中 也 包含 A(I+1,J)。 既 然 这 些 引 用 不 是 由 任何 循环 
携带 的 依赖 环 的 一 部 分 ， 它 们 属于 第 一 种 情况 ， 因 而 对 命中 一 个 新 高 速 缓存 行 的 内 层 循 环 的 
每 一 次 迭代 会 产生 一 次 不 命中 。 在 另 一 方面 ， 对 C(J) 的 引用 包含 在 一 个 由 内 层 循 环 携带 的 输 
人 依赖 中 ， 所 以 它 的 预 取 可 以 放置 在 内 层 循 环 的 入 口 之 前 。 

注意 ， 在 第 二 种 情况 有 一 个 特别 的 考虑 。 如 果 依 赖 边 由 外 层 循环 携带 ， 且 这 个 名 字 划 分 
的 生成 者 引用 由 内 有 层 循 环 的 索引 变量 确定 ， 则 这 个 生成 者 给 出 的 整个 引用 向 量 可 以 被 预 取 。 
如 果 在 高 速 缓存 中 没有 足够 的 空间 ， 在 对 高 速 缓存 大 小 进行 分 析 时 这 个 携带 依赖 边 将 被 标记 
为 “无 效 的 ”。 作 为 一 个 例子 ， 考 虑 下 面 的 循环 嵌 套 : 

pO J=1, M 

DO I = 1, 32 
A(I, J) = ACI, J) + B(I) * C(I, J) 
ENDDO 
ENDDO 


这 个 循环 嵌 套 有 一 个 包含 B(I) 的 由 外 层 循 环 携带 的 输入 依赖 。 如 果 高 速 缓存 大 小 分 析 确 
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定 B(1:32) 能 够 占据 整个 高 速 缓存 ， 则 包含 B(I) 的 依赖 边 将 被 标记 为 “无 效 的 ”， 且 对 B(1:32) 
的 预 取 放置 在 J- 循 环 之 外 。 这 与 9.5.1 节 的 介绍 中 描述 的 预 取向 量化 对 应 。 

注意 ， 至 少 在 指令 调度 之 前 ， 本 例 中 对 A(I,J) 和 C(I,J) 的 预 取 应 放 在 1- 循环 之 内 。 

无 环 名 字 划 分 的 预 取 插 入 

我 们 开始 讨论 对 于 不 构成 强 连通 区 域 的 名 字 划 分 的 预 取 插入 位 置 。 考 虑 这 样 一 种 情况 : 
在 循环 中 有 一 个 单独 的 名 字 划 分 ， 其 中 只 有 一 个 单独 的 生成 者 需要 循环 中 的 预 取 。 这 有 两 种 
情况 : 

(1) 如 果 在 循环 中 ， 对 生成 者 的 引用 在 高 速 缓存 中 不 是 顺序 重复 的 ( 即 循环 中 的 引用 没 
有 空间 重用 )， 则 只 需 在 每 次 引用 生成 者 前 插入 一 条 预 取 指令 。 

(2) 如 果 循 环 中 对 生成 者 的 引用 具有 空间 局 部 性 ， 则 要 决定 在 访问 生成 者 引起 一 次 不 命 
中 的 初始 远 代 后 失效 的 第 一 次 迭代 的 索引 ji 和 高 速 缓存 的 两 次 不 命中 之 间 的 挝 代 间 距 !。 请 注 
意 ， 如 果 数 组 访问 的 跨 距 大 于 1， 则 间距 /可 能 比 高 速 缓 存 行 的 长 度 小 。 也 请 注意 ， 由 于 我 们 
已 经 以 初始 索引 不 能 是 第 一 次 迭代 这 样 一 种 方式 定义 初始 的 索引 ， 因 此 io< 1+1。 

a) 将 这 个 循环 划分 为 两 部 分 : 一 个 初始 子 循 环 ， 执 行 从 1 到 m- IGRI, HARB 
从 ij 到 结束 的 迭代 。 

b) 对 第 二 个 循环 进行 分 段 ， 使 得 子 循环 的 长 度 为 1。 在 每 个 子 循环 的 前 面 插入 一 条 对 生成 
者 的 预 取 指令 。 

c) 为 了 避免 在 初始 子 循环 中 的 不 命中 ,在 初始 循环 前 插入 所 有 需要 的 预 取 指 令 。 请 注意 ， 
如 果 在 名 字 划 分 中 有 一 个 循环 携带 的 数据 依赖 ， 且 该 依赖 的 汇 点 的 引用 是 在 比 生 成 者 引用 更 
早 的 高 速 缓存 行 中 ， 对 含有 生成 者 引用 的 高 速 缓存 行 的 预 取 在 第 一 次 欠 代 中 是 不 够 的 。 


d) 通过 循环 展开 消除 任何 非常 短小 的 循环 .此 处 的 “非常 短小 ”可 能 依赖 于 特定 机 器 的 


参数 ， 但 是 显然 ， 只 有 一 次 迭代 的 循环 是 非常 短小 的 。 
在 两 种 情况 下 ， 预 取 指 令 的 最 后 位 置 将 由 指令 调度 器 决定 。 
作为 这 个 过 程 的 一 个 例子 ， 考 虑 下 面 的 循环 : 
DOI=1,™ 
A(I, J) = ACI, J) + ACT - 1, J) 
ENDDO 
包含 对 A(I,J) 和 A(I-1,J) 引 用 的 名 字 划 分 把 对 A(1,J) 的 写作 为 它 的 生成 者 。 如 果 我 们 假设 
A(0,J) 从 一 个 新 的 高 速 缓 存 行 开 始 ， 且 高 速 缓存 行 有 4 个 字 的 长 度 ， 则 io=4 且 /=4。 
因此 ， 初 始 的 子 循环 ， 或 称 为 前 置 循环 ， 由 3 次 迭代 组 成 ， 而 其 余 的 迭代 可 以 分 段 ， 段 长 
是 4。 
DOI =1, 3 
ACI, J) = ACI, J) + ACL - 1, J) 
ENDDO 
DO I = 4, M, 4 
IU = MIN(M, I + 3) 
DO ii = 1, Iu 
AG, J) = A(ii, J) + AGE - 1, J) 
ENDDO 
ENDDO 


显然 ， 在 内 层 循环 的 每 次 迭代 前 需要 对 A(I,J) 的 一 次 预 取 ， 但 在 前 置 循环 的 前 面 需要 预 取 
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PRE HAE) A(0,J) 是 必须 被 预 取 的 ， 而 且 这 个 预 取 操作 将 把 在 同一 个 高 速 缓存 行 的 A(1, ) 


带 人 高 速 缓存 中 。 使 用 这 个 预 取 指 令 后， 代码 变 成 
prefetch(A(0, J)) 
DO I= 1, 3 
A(I, J) = ACI, J) + ACI - 1, J) 
ENDDO 
DO I = 4, M, 4 
IU = MIN(M, I + 3) 
prefetch(A(I, J)) 
DO ii = I, IU 
ACii, J) = ACii, J) + ACii - 1, J) 
ENDDO 
ENDDO 


请 注意 ， 在 第 一 个 循环 前 必须 被 预 取 的 高 速 缓存 行 的 集合 就 是 包含 前 置 循环 第 一 次 迭代 中 的 
所 有 引用 的 高 速 缓存 行 的 集合 。 通 常 这 可 以 通过 检查 来 确定 。 

如 何 将 这 个 过 程 进 行 扩展 ， 使 其 可 以 处 理 拥有 不 同 生成 者 的 多 个 名 字 划 分 呢 ? 扩展 是 直 
FEN: 简单 地 确定 每 个 名 字 划 分 的 初始 不 命中 索引 ， 用 最 小 的 一 个 作为 实际 的 i， 且 在 分 段 循 
环 展开 版 本 的 循环 体 中 直接 插入 对 于 其 他 的 不 命中 进行 预 取 的 指令 。 

为 了 举例 说 明 这 种 扩展 ， 我 们 给 出 另 一 个 例子 ,假设 A(0,J) 和 8(0,J) 开 始 一 个 高 速 缓存 行 : 

DOI=1, M 

ACI, J) = AI- 1, J) + BCI +2, J) 

ENDDO 

当 I=2 时 ， 对 B(I+2,J) 的 引用 将 有 一 次 初始 的 不 命中 ， 而 对 A(I,) 的 初始 不 命中 索引 是 4。 
采用 小 的 索引 2， 在 循环 展开 和 插入 预 取 后 ， 我 们 得 到 下 面 的 循环 : 

prefetch(A(0, J)) 

prefetch(B(0, J)) 

ACL, J) = ACO, J) + B(3, J) 

DO I=2, M, 4 

prefetch(B(I + 2, J)) 

ACI, J) = ACI - 1, J) + BCI + 2, J) 

A(I +1, J) = ACI, J) + BCI + 3, J) 

ACI + 2, J) = ACI + 1, J) + BCI + 4, J) 
prefetch(A(I + 3, J)) 

ACI + 3, J) = ACI + 2, J) + BCI + 5, J) 

ENDDO 
在 MOD(M-1,4)=0 的 前 提 下 ， 这 段 代 码 是 正确 的 。 如 果 这 个 条 件 不 满足 ， 则 对 I 的 循环 将 有 一 个 
最 多 有 3 次 和 迭代 的 后 置 循环 ， 后 置 循 环 的 生成 是 简单 的 。 

有 环 名 字 划 分 的 预 取 插 入 

对 于 有 环 的 名 字 划 分 ， 预 取 指 令 正好 插入 在 携带 依赖 环 的 循环 前 面 。 在 最 内 层 循环 的 情 
形 下 ， 这 一 点 是 相当 简单 的 ， 因 为 生成 者 的 引用 (这 种 情形 下 ， 是 循环 携带 依赖 的 目标 ) 只 
是 在 预 取 指令 中 重复 。 

但 是 ， 在 携带 依赖 的 循环 是 一 个 外 层 循环 的 情形 ， 预 取 是 可 以 被 向 量化 的 。 下 面 的 过 程 
实现 这 个 功能 : 
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(1) 首先 是 将 预 取 的 循环 嵌 套 放置 在 携带 一 个 有 环 名 字 划 分 的 后 向 依赖 的 循环 之 外 。 预 
取 循 环 应 该 包括 含有 生成 者 引用 的 和 使 用 相同 迭代 范围 的 循环 的 循环 头 副本 。 
(2) 对 循环 峰 僚 进行 重新 排列 ， 使 得 在 高 速 缓存 行 上 进行 连续 迭代 的 循环 是 最 内 层 循环 。 
(3) 将 最 内 层 循环 分 成 两 个 循环 一 一 一 个 前 置 循环 和 一 个 主 循环 。 前 置 循环 到 达 最 内 层 循 
环 的 第 一 次 迭代 ， 包 含 开 始 一 个 新 高 速 缓存 行 的 一 个 生成 者 引用 〈 前 置 循环 可 以 为 空 ) ; E 
循环 从 含有 新 高 速 缓存 引用 的 迭代 开始 。 用 对 第 一 个 生成 者 引用 的 一 个 预 取 替 代 前 置 循 环 。 
令 主 循环 的 跨 距 为 新 的 高 速 缓存 引用 的 间距 。 
为 了 举例 说 明 上述 过 程 ， 我 们 给 出 下 面 的 例子 循环 : 
DOJ=1,™ 
DO I = 2, 33 
ACI, J) = ACI, J) * BCI) 
ENDDO 
ENDDO 


对 A(I,J) 的 预 取 是 很 简单 的 ， 可 以 只 在 例子 的 循环 体 中 给 出 。 由 于 包含 B(I) 的 输入 依赖 被 J- 
循环 携带 ， 对 B 的 预 取 将 放 在 这 个 循环 之 外 。 假 设 B(1) 和 A(1,J) 与 高 速 缓存 行 的 边界 对 齐 ， 且 
高 速 缓存 行 的 长 度 是 4， 第 一 个 预 取 的 将 是 B(2)， 其 后 的 预 取 是 B(5)，B(9)， 等 等 。 


prefetch(B(2)) 
DO I = 5, 33, 4 
prefetch(B(1)) 504 
ENDDO 
DO J=1, M 
prefetch(A(2, J)) 
DO I = 2, 4 
ACI, J) = ACI, J) * BCT) 
ENDDO 
DOI = 5, 33, 4 
prefetch(A(I, J)) 
ACI, J) = ACI, J) * BCI) 
ACI +1, J) = ACI + 1, J) * BCI + 1) 
A(I + 2, J) = ACI + 2, J) * BCI + 2) 
A(I + 3, J) = ACI + 3, J) * BCI + 3) 
ENDDO 
prefetch(A(33, J)) 
A(33, J) = A(33, J) * B(33) 
ENDDO 


请 注意 ， 在 外 层 循环 前 安排 对 8 的 预 取 ， 是 为 了 对 于 在 计算 循环 的 循环 体 中 未 出 现 的 引用 
不 发 射 预 取 指 令 ， 而 在 循环 体 中 所 有 引用 的 高 速 缓存 行 都 被 预 取 。 这 项 处 理 可 以 通过 在 算法 
中 引用 循环 分 裂 策 略 实现 。 

不 规则 访问 的 预 取 

不 规则 访问 带 来 了 特殊 的 问题 ， 因 为 不 规则 访问 通常 是 由 一 个 数组 访问 构成 的 ， 在 数组 
中 的 一 个 下 标 位 置 出 现下 标 变 量 : 

A(IX(1), J) 
在 这 些 情形 中 ， 我 们 假设 对 于 外 面 的 数组 不 存在 空间 局 部 性 ， 所 以 我 们 预 取 每 一 个 引用 。 但 
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是 ， 对 于 索引 数组 ， 可 能 存在 空间 局 部 性 ， 所 以 它 被 作为 一 个 通常 的 预 取 来 处 理 。 可 以 使 用 
标准 的 预 取 算法 。 
考虑 下 面 的 例子 : 
DOJ=1, M 
DO 1 = 2, 33 
ACI, J) = ACI, J) * BCIX(I), J) 
ENDDO 
ENDDO 


其 中 对 A 的 预 取 与 前 面 的 例子 类 似 ， 但 是 在 每 一 次 迭代 中 都 要 预 取 B。 对 IX 的 预 取 通常 会 出 现 
在 紧邻 B 的 预 取 的 前 面 ， 本 例 中 的 这 个 预 取 可 以 移 到 J- 循 环 的 外 面 ， 得 到 下 面 的 代码 : 


prefetch(IX(2)) 
DO I = 5, 33, 4 
prefetch(IX(1)) 
ENDDO 
DO J=1, M 
prefetch(A(2, J)) 
DO I= 2, 4 
prefetch(B(IX(I), J)) 
ACI, J) = ACI, J) * BCIX(I), J) 
ENDDO 
DO I = 5, 32, 4 
prefetch(A(I, J)) 
prefetch(BCIX(I), J)) 
ACI, J) = ACI, J) * BCIX(I), J) 
prefetch(B(IX(I1 + 1), J)) 
ACI +1, J) = ACI + 1, J) * BCIX(T + 1), J) 
prefetch(B(IX(I + 2), J)) 
A(I + 2, J) = ACI + 2, J) * BCIX(I + 2), J) 
prefetch(BCIX(I + 3), J)) 
A(I + 3, J) = A(I + 3, J) * BCIX(I + 3), J) 
ENDDO 
prefetch(A(33, J)) 
prefetch(B(1X(33), J)) 
A(33, J) = A(33, J) * BCIX(33), J) 
ENDD0 


对 间接 引用 预 取 的 一 个 问题 是 ， 如 果 索 引 数 组 在 循环 中 被 修改 ， 则 预 取 的 地 址 在 预 取 热 
行 时 可 能 是 无 效 的 ， 这 可 能 导致 对 一 个 非法 的 地 址 进行 预 取 [216]。 由 于 在 大 多 数 机 器 上 ， 预 
取 不 会 导致 存储 异常 ， 对 非法 地 址 的 预 取 不 会 产生 不 安全 的 代码 。 然 而 ， 如 果 我 们 试图 通过 
两 级 间接 地 址 预 取 ， 我 们 可 能 是 从 一 个 非法 的 地 址 进行 读 操作 。 为 了 避免 这 种 问题 ， 我 们 限 
于 只 对 一 层 间 接地 址 进行 预 取 。 


9.5.2 软件 预 取 的 有 效 性 

针对 一 个 与 上 述 描述 的 方法 接近 的 选择 预 取 的 方法 ，Mowry 通 过 多 种 核心 程序 检验 了 它 
的 有 效 性 ， 结 果 显 示 与 不 进行 预 取 的 同样 程序 相 比 较 ， 该 方法 得 到 从 1.05 到 2.08 之 间 的 实际 
加 速 比 [216]。 这 些 结果 重 现在 图 9-8 中 。 这 些 结果 是 在 一 个 100Mhz 的 ， 拥 有 8K 字 节 容 量 的 一 
级 高 速 缓存 和 256K 字 节 容 量 的 二 级 高 速 缓存 的 MIPS R4000 上 模拟 得 到 。 一 级 高 速 缓存 不 命 
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中 对 访问 二 级 高 速 缓存 命中 的 损失 是 12 个 周期 ， 所 有 访问 不 命中 对 存储 器 访问 总 的 损失 是 75 
个 周期 。 


加 速 比 
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核心 程序 
图 9-8 软件 预 取 的 加 速 比 


Mowry 的 加 速 比 包括 执行 预 取 操作 需要 的 额外 指令 的 代价 。 在 某 些 情形 下 ， 需 要 这 些 额 
外 的 指令 重新 计算 预 取 的 地 址 ， 在 某 些 例子 中 ， 这 些 指 令 执 行 的 开销 可 以 高 达 15%。 但 是 ， 
由 于 减少 内 存 访 问 导 致 的 处 理 器 停顿 的 收获 对 于 抵消 这 些 开销 是 绰绰有余 的 。 

这 些 结果 显示 : 对 于 具有 现代 存储 器 体系 结构 的 机 器 ， 预 取 是 一 种 重要 的 优化 措施 。 
9.6 小 结 

在 讨论 高 速 缓存 存储 时 ， 两 种 不 同 的 重用 是 重要 的 。 当 两 个 不 同 的 内 存 操作 访问 同一 个 
数据 元 素 时 出 现时 间 重 用 。 在 第 8 章 中 研究 过 这 类 重用 。 当 两 个 不 同 的 访问 对 应 的 内 存单 元 接 
近 到 足够 一 起 占据 同一 高 速 缓存 块 时 ， 出 现 的 是 空间 重用 ， 这 种 重用 是 高 速 缓存 所 特有 的 。 
在 本 章 中 ， 为 了 增加 时 间 和 空间 两 方面 的 重用 性 ， 我 们 考虑 了 两 种 策略 : 

。 循 环 交换 ， 用 于 提高 内 层 循环 中 对 长 的 高 速 缓存 行 的 使 用 效率 ， 既 可 以 获得 内 层 循环 的 

小 跨 距 访问 (空间 重用 性 )， 又 可 以 减少 对 相同 内 存单 元 访问 的 距离 (时 间 重 用 性 )。 

。 高 速 缓存 分 块 ， 采 用 与 第 8 章 介 绍 的 循环 展开 和 压 紧 相 类 似 的 方式 变换 程序 ， 发 据 外 层 

循环 中 的 重用 性 。 

对 于 包含 有 控制 流 和 有 梯形 迭代 范围 的 循环 ， 这 些 技术 已 经 显示 出 其 可 用 性 。 这 些 技术 
的 使 用 效果 可 以 通过 使 用 前 面 研究 的 变换 技术 得 到 增强 ， 如 考虑 对 齐 的 循环 合并 。 

另外 ， 本 章 介绍 了 软件 预 取 ， 这 是 一 种 变换 技术 ， 通 过 预先 读 入 由 特定 预 取 指 令 指明 的 
高 速 缓存 块 来 隐藏 对 主 存 访问 的 延迟 的 。 


9.7 实例 研究 

为 了 支持 其 学 位 论文 的 研究 ，Porterfield 对 Rice 大 学 的 PFC 系统 作 了 扩充 ， 使 其 可 以 实现 本 
音 中 描述 的 循环 分 段 和 交换 。 另 外 ， 他 实现 了 一 个 循环 合并 的 基本 形式 。 与 本 章 描述 的 对 齐 方 
法 不 同 ，Porterfield 的 实现 方法 是 当 循 环 对 齐 使 得 直接 的 循环 合并 不 再 可 能 时 ， 寻 找 应 用 另外 
一 种 称 为 循环 剥离 和 压 紧 变换 的 机 会 。 循 环 剥 离 和 压 紧 变换 类 似 于 如 下 形式 的 伴 有 对 齐 的 循环 
合并 : 为 了 使 循环 对 齐 可 以 实施 ， 在 实施 循环 合并 之 前 将 一 个 循环 的 几 次 迭代 和 剥离。 但 是 ， 
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Porterfield 并 没有 用 一 个 通用 的 循环 合并 算法 来 驱动 他 的 搜索 过 程 ， 所 以 他 只 能 发 现 很 少 的 机 
会 应 用 他 的 方法 。 不 过 ， 循 环 剥 离 和 压 紧 对 于 提高 某 些 重要 程序 性 能 是 关键 性 的 ; 在 9.3.8 小 节 
中 指出 ， 对 WANL1 应 用 这 种 变换 可 以 使 其 性 能 提高 四 分 之 一 。 对 于 一 个 主要 的 流体 动力 学 基 
准 测 试 程序 SIMPLE， 可 应 用 循环 剥离 和 压 紧 使 循环 中 的 不 命中 次 数 消除 一 半 ; 但 是 ， 这 些 循 
环 只 代表 计算 中 的 读 操作 的 一 小 部 分 ， 所 以 命中 率 整体 的 提高 只 是 1% 一 一 从 77% 提 高 到 78%。 
Porterfield 在 其 研究 中 也 描述 了 循环 倾斜 与 循环 分 块 的 结合 ， 但 是 没有 发 现 其 应 用 程序 。 

Porterfield 在 HPF 中 集成 了 一 个 高 速 缓存 模型 ， 由 此 产生 一 个 事件 驱动 的 模拟 工具 ， 称 为 
PFC-Sim。 他 用 这 个 工具 对 变换 前 后 的 代码 性 能 进行 了 评估 。 在 这 个 工具 中 ， 模 拟 器 是 和 程 
序 的 执行 并 行 工 作 的 ， 减 少 对 用 于 保存 详细 跟踪 信息 对 大 量 数据 存储 空间 的 需要 。 这 要 求 对 
每 一 个 访问 了 高 速 缓存 存储 的 语句 用 对 高 速 缓存 模型 的 调用 进行 注释 。 由 于 这 项 工作 是 在 一 
个 计算 能 力 有 限 的 机 器 上 完成 的 ， 大 部 分 的 实验 只 是 监测 了 对 下 标 数 组 变量 的 访问 。 由 于 任 
何 给 定 的 例 程 中 标量 的 数目 是 非常 少 的 ， 因 此 这 种 简化 引入 的 不 精确 性 是 相当 小 的 。 

Porterfield 也 将 PFC 用 于 研究 软件 预 取 的 有 效 性 。 在 这 个 研究 中 ， 他 假设 有 一 个 高 速 缓存 ， 
每 一 个 浮 点 量 占据 一 个 高 速 缓存 行 。 这 个 假设 允许 采用 一 个 比 本 章 中 介绍 的 算法 更 简单 的 算 
法 ， 即 试图 用 长 的 高 速 缓存 行 减少 不 必要 的 预 取 次 数 。 不 过 ， 这 个 预 取 算法 基本 上 与 Mowry， 
Lam， 和 Gupta 使 用 的 方法 [217，216] 相 同 ， 显 现 了 预 取 的 预期 结果 ， 特 别 是 对 在 非 规则 计算 
中 发 现 的 间接 引用 形式 。Porterfield 的 研究 工作 是 已 知 最 早 的 对 软件 预 取 的 研究 。 

PFC 的 后 继 者 ParaScope 系 统 包 括 了 为 提高 重用 性 而 对 高 速 缓存 分 块 和 实施 循环 交换 的 工 
具 。 这 些 工具 被 Kennedy 与 McKinley[175] 及 McKinley，Carr 和 Tseng[210] 用 来 试验 为 了 提高 高 
速 缓存 的 利用 而 将 循环 交换 和 分 块 结合 使 用 的 有 效 性 。 本 章 中 介绍 的 策略 就 是 从 这 项 工作 中 
得 到 的 。 

ERR, Chen Ding 扩 展 了 D 系 统 (ParaScope 的 一 个 新 的 版 本 )， 实 现 激进 的 多 层 循 环 合 
并 ， 从 而 减少 应 用 程序 的 存储 带宽 的 消耗 [103]。 这 个 系统 将 循环 对 齐 纳 入 了 一 个 全 局 算法 ， 
这 个 算法 类 似 于 第 8 章 中 介绍 过 并 在 本 章 中 使 用 的 算法 。 

Ardent Titan 有 一 个 高 速 缓存 ， 但 是 没有 将 其 使 用 于 浮 点 量 ， 因 为 所 有 的 浮 点 操作 都 是 由 
向 量 部 件 完成 的 ， 向 量 部 件 的 读 / 写 操 作 是 绕 过 高 速 缓 存 的 。 由 于 这 个 原因 ，Titan 编 译 器 实现 
了 第 8 章 介 绍 的 提高 寄存 器 重用 性 的 操作 ， 而 不 包括 高 速 缓存 管理 的 策略 。 


9.8 历史 评述 与 参考 文献 

针对 高 速 缓存 的 分 块 技术 实际 已 知 有 多 年 了 。 与 Kuck 一 起 工作 的 Abu-Sufah 给 出 了 第 一 个 
公开 发 表 的 基于 依赖 的 程序 变换 处 理 方法 [1]。 在 Abu-Sufah 工 作 基 础 上 ， 一 些 研究 人 员 给 出 了 
许多 由 编译 器 实现 高 速 缓存 管理 的 论文 ， 其 中 包括 Gannon，Jalby 和 Gallivan[117] 及 Callahan ， 
Kennedy 和 Porterfield[61，227]。Wolf 和 Lam 的 方法 具有 可 以 处 理 多 维 分 块 的 特点 ， 并 显示 出 
分 块 后 ， 性 能 随 着 问题 规模 的 扩大 而 提高 [2761]。McKinley，Carr 和 Tseng[210] 将 高 速 缓存 分 
块 和 循环 交换 集成 在 一 起 [210]。 

由 于 高 速 缓存 分 块 在 现代 机 器 上 是 非常 适合 的 ， 所 以 值得 为 了 得 到 好 的 分 块 而 付出 更 大 
的 努力 。Wolfe[282] 及 Kodukula，Ahmed 和 Pingali[186] 都 给 出 了 更 强 有 力 的 和 复杂 的 变换 技 
术 的 实例 。 | 

Ding 和 Kennedy 最 近 的 工作 [103，105] 显 示 出 多 层 的 循环 合并 和 对 齐 对 于 提高 高 速 缓存 重 
用 性 并 因此 而 减少 存储 带宽 的 需求 是 有 效 的 。 基 于 这 样 一 种 观察 ， 通 过 增加 重用 性 和 提高 存 
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环 进行 合并 。 

多 年 来 ， 软 件 预 取 作 为 一 种 提高 高 速 缓存 性 能 的 方法 ， 成 为 许多 探索 的 主题 。 这 个 术语 
是 由 Callaham，Kennedy 和 Porterfield[61，227] 在 他 们 最 初 的 论文 中 提出 的 ， 论 文中 也 给 出 了 
其 实现 的 编译 算法 和 显示 其 预期 效果 的 模拟 结果 。 本 章 中 介绍 的 选择 性 预 取 技术 是 由 Mowry， 
Lam 和 Gupta 提 出 的 ， 是 Mowry 学 位 论文 的 一 部 分 [217，216]。 


习题 
9.1 图 9-1 中 的 循环 重新 排序 算法 对 循环 进行 置换 ， 以 便 减 少 对 内 存 访问 的 跨 距 。 它 对 非 
完全 傣 套 循环 有 作用 吗 ? 
9.2 针对 下 面 的 代码 ， 确 定 循 环 的 存储 次 序 : 
DOI=1,N 
DOJ = 2, M 
ACI, J) = ACL, J - 1) + B(I, J) + CCQ) 
ENDDO 
ENDDO 


93 当 模 拟 一 个 改变 中 的 系统 时 ， 许 多 程序 使 用 一 个 下 面 例子 中 的 时 间 步 循环 : 
DO TIME = 1, N 
DOI=1,N 
POSITION(I) = F(POSITION(I)) 
ENDDO 
ENDDO 
你 可 以 使 用 本 章 中 讨论 的 任何 技术 提高 这 个 循环 的 高 速 缓存 性 能 吗 ? 
9.4 存储 访问 慢 速 不 仅 是 由 于 高 的 延迟 ， 也 是 由 于 低 的 带宽 。 在 考虑 带宽 限制 的 前 提 下 ， 
预 取 的 作用 如 何 ? 至 少 给 出 两 个 说 明 为 什么 软件 预 取 可 能 导致 不 必要 的 存储 传输 的 原因 。 
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第 10 章 
调 E 


10.1 引言 

本 书 用 大 部 分 篇 幅 讨论 如 何以 依赖 关系 的 理论 为 基本 工具 ， 来 发 掘 程序 中 的 并 行 性 。 在 
本 章 中 ， 我 们 研究 如 何 利 用 相同 的 理论 将 程序 中 的 并 行 性 映射 到 计算 机 系统 中 有 限 的 并 行 资 
源 上 。 这 个 问题 通常 被 称 为 调度 ， 因 为 使 用 的 主要 的 策略 是 通过 牺牲 一 些 执行 时 间 而 使 给 定 
的 程序 适应 可 利用 的 资源 。 调 度 问题 的 本 质 是 最 小 化 必须 牺牲 的 时 间 总 量 。 我 们 将 会 看 到 ， 
对 于 在 高 性 能 计算 机 上 编译 后 的 程序 的 性 能 ， 好 的 调度 可 以 产生 巨大 的 效果 。 

我 们 将 研究 调度 问题 的 两 个 不 同 的 变形 : 指令 调度 和 向 量 部 件 调度 。 

(1) 指令 调度 是 指定 指令 执行 顺序 的 过 程 一 -在 所 有 的 体系 结构 上 这 都 是 一 种 重要 的 优 
化 。 在 单 处 理 器 的 层次 上 ， 利 用 体系 结构 提供 的 资源 指令 调度 需要 小 心地 平衡 各 种 不 同 的 指 
令 在 资源 方面 的 需求 。 主 要 的 目标 是 最 小 化 一 个 指令 序列 中 关键 路 径 的 长 度 。 

(2) 向 量 部 件 调度 的 目标 是 最 有 效 地 使 用 向 量 部 件 的 指令 和 能 力 。 这 需要 模式 识别 和 同 
步 的 最 小 化 。 

在 第 6.6 节 中 我 们 已 讨论 过 多 处 理 器 调度 ， 即 在 异步 并 行 的 协 处理 器 间 分 配 工作 ， 使 得 
各 处 理 器 负载 平衡 ， 并 且 最 小 化 程序 运行 的 时 间 。 

虽然 本 章 涉及 这 两 类 调度 问题 ， 但 大 量 的 论述 集中 在 简单 指令 调度 上 。 随 着 晶体 管 变 得 越 
来 越 小 ， 艺 片上 的 功能 变 得 越 来 越 强 ， 目 前 大 多 数 的 设计 者 都 致力 于 利用 细 粒 度 并 行 性 功能 。 
这 一 变化 的 后 果 是 ， 指 令 调 度 从 可 有 可 无 变 为 一 个 由 编译 器 和 硬件 组 成 的 系统 的 成 功 的 关键 。 


10.2 指令 调度 

所 有 的 现代 机 器 体系 结构 都 有 在 一 个 周期 中 发 出 多 条 指令 的 能 力 ， 因 此 理论 上 有 获得 高 
度 的 细 和 粒度 并 行 性 的 能 力 。 有 效 地 利用 这 种 能 力 要 求 指令 按照 这 样 一 种 顺序 排列 ， 使 得 处 理 
器 能 够 找到 并 且 发 出 那些 能 够 被 并 行 执行 的 指令 。 对 于 达到 这 一 目标 而 言 ， 主 要 有 两 方面 的 
障碍 : (1) 指令 间 的 依赖 迫使 指令 顺序 执行 ; (2) 资源 的 限制 迫使 需要 相同 资源 的 指令 串 行 
化 。 单 处 理 器 指令 调度 的 目标 是 以 这 样 一 种 顺序 生成 指令 ， 把 有 依赖 的 指令 放置 足够 远 从 而 
使 依赖 不 会 导致 延迟 ， 同 时 使 尽 可 能 多 的 功能 部 件 在 每 一 周期 处 于 忙 状 态 。 

大 多 数 支 持 细 粒 度 并 行 性 的 处 理 器 属于 两 种 类 型 之 一 : 超标 量 (superscalar) 和 超 长 指令 
F (VLIW) ( 见 第 1.4 节 )。 最 常见 的 超标 重 处 理 器 有 由 硬件 控制 和 调度 的 多 个 功能 部 件 ， 这 
意味 着 指令 译 码 部 件 同 时 读 入 一 组 指令 (通常 为 一 个 高 速 缓存 的 字 长 且 与 商 速 缓 存 字 边界 对 
K) 并 确定 它们 之 间 的 相关 (或 依赖 ) 关系 。 如 果 有 空闲 的 资源 ， 并 且 多 条 指令 可 以 被 安全 
地 并 行 调度 ， 则 该 部 件 会 将 这 些 指令 调度 到 多 个 功能 部 件 上 执行 。 超 标量 处 理 器 通常 通过 停 
顿 执行 或 寄存 器 重 命名 来 避免 执行 一 条 操作 数 尚未 就 绪 的 指令 ， 以 此 方式 提供 出 现 相关 时 的 
保护 。 很 容易 看 出 超标 量 执行 为 什么 如 此 流行 一 因 为 指令 部 件 可 以 接受 已 有 的 二 进 制 码 ， 
一 个 超标 量 机 器 无 需 重新 编译 程序 就 能 提供 某 种 加 速 比 。 





mn 
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VLIW (Very Long Instruction Word) 结构 较 不 常见 ， 但 是 最 近 再 度 流行 起 来 。 超 长 指令 
字 结 构 与 超标 量 结构 相反 ， 歼 得 高 性 能 的 主要 的 工作 不 在 硬件 设计 方面 ， 而 在 编译 器 这 一 边 。 
VLIW 结 构 使 用 长 指令 字 ， 共 中 包含 控制 每 个 可 用 的 功能 部 件 的 指令 域 。 一 条 这 样 的 指令 可 以 
使 得 所 有 的 功能 部 件 都 执行 。 对 于 VLIW 机 器 ,编译 器 必须 显 式 地 指出 并 行 性 ,并 且 必 须 注意 
指令 间 的 相关 ， 因 为 VYLIW 结 构 通常 不 提供 防止 使 用 尚 不 可 用 的 结果 的 保护 。 超 长 指令 字 机 器 
的 一 个 主要 的 缺点 是 缺乏 二 进 制 兼容 性 ; 由 于 其 指令 长 度 与 功能 部 件 的 个 数 成 比例 ， 较 新 的 
有 不 同 数目 功能 部 件 的 机 器 如 果 不 通过 某 种 形式 的 翻译 ， 将 不 能 执行 已 有 的 二 进 制 代码 。 结 
果 是 用 户 和 软件 厂商 必须 为 每 一 代 不 同 的 VLIW 机 器 重新 编译 他 们 的 源 代码 。 

对 于 超标 量 和 超 长 指令 字 结 构 ， 有 效 开发 指令 级 并 行 性 的 关键 是 重 排 指令 序列 ， 以 使 在 每 一 
周期 利用 尽 可 能 多 的 功能 部 件 。 编 译 器 为 达到 这 一 目标 所 采取 的 标准 做 法 是 首先 发 出 一 条 顺序 的 
已 知 是 正确 的 指令 流 ， 然 后 重 排 这 一 指令 流 以 便 更 有 效 地 利用 硬件 的 并 行 性 。 当 然 ， 这 一 重 排 的 
过 程 不 能 破坏 原始 指令 流 中 存在 的 依赖 关系 。 然 而 ， 指 令 调度 中 的 主要 问题 之 一 是 产生 品行 指令 
序列 时 必须 考虑 可 用 的 资源 ， 而 这 可 能 产生 一 些 人 为 的 在 高 层 表 示 计 算 中 并 不 存在 的 依赖 。 

寄存 器 是 最 常见 的 例子 。 举 例 来 说 ， 对 于 代码 片断 


a=btct+tdte; 


ARER S Bean P CRIA A ESF FF ak PDE A FHERR ): 

add a,b,c 

add a,a,d 

add a,a,e 
这 一 指令 流 无 法 通过 重 排序 来 利用 多 个 加 法 器 。 因 为 每 条 指令 均 依 赖 前 一 条 指令 的 结果 。 然 
而 ， 这 些 依赖 关系 纯 属 人 为 的 ， 其 所 以 发 生 这 种 情况 只 是 因为 所 有 的 中 间 结 果 均 累加 到 间 一 
个 寄存 器 中 。 如 果 使 用 不 同 的 寄存 器 分 配 ， 例 如 i 

add ri,b,c 

add r2,d,e l 

add arl,r2 


则 前 两 个 加 法 就 可 以 并 行 完成 。 设 计 的 原始 指令 流 最 小 化 所 需 的 寄存 器 的 个 数 ; 但 这 样 作 同 


-时 也 最 小 化 可 得 的 并 行 性 。 在 这 一 层次 上 的 反 依 赖 都 是 由 对 资源 的 重用 导致 的 。 


前 面 的 例子 说 明 指 令 调度 中 最 基本 的 冲突 之 一 : 产生 原始 的 指令 流 。 如 果 产 生 原 始 的 指 
令 流 时 已 考虑 到 机 器 中 可 用 的 资源 (特别 是 寄存 器 )，、 就 有 可 能 引入 由 资源 重用 导致 的 人 为 依 
赖 。 另 一 方面 ， 如 果 原 始 的 指令 落 不 考虑 可 用 的 资源 ， 而 只 是 用 符号 表示 它们 ， 就 可 能 没有 
足够 的 资源 正确 运行 调度 后 的 指令 流 。 举 例 来 说 ， 上 面 的 第 二 个 版 本 无 法 在 一 个 只 有 5 个 寄存 
器 的 结构 上 执行 ， 因 为 并 行 执行 前 两 个 加 法 就 需要 6 个 寄存 器 (假设 我 们 不 能 破坏 任何 输入 的 
内 容 )。 这 是 在 并 行 性 和 存储 空间 之 间 折 圳 的 一 个 例子 。 

这 一 节 介 绍 每 个 周期 能 发 射 几 条 指令 的 单 处 理 器 机 器 上 指令 调度 的 一 些 方法 ， 而 不 论 其 
是 超标 量 或 VLIW 处 理 器 。 中 心 是 重 排 目标 程序 的 指令 以 最 大 限度 地 利用 机 器 体系 结构 所 提供 
的 并 行 性 (指令 处 理 和 功能 执行 中 的 并 行 性 )， 而 不 危及 程序 的 含义 。 假 设 部 分 资源 (特别 是 
寄存 器 ) 已 被 分 配 。 其 他 的 资源 (如 功能 部 件 等 ) 尚未 被 分 配 。 

为 了 使 调度 处 理 更 具 一 般 性 ， 我 们 将 定义 一 个 抽象 机 器 模型 ， 作 为 本 章 探讨 的 各 种 指令 
调度 策略 的 目标 机 。 这 个 机 器 有 任意 数目 的 功能 部 件 ， 以 及 在 一 个 周期 中 发 出 一 条 或 多 条 各 
种 类 型 指令 的 能 力 。 这 一 机 器 模型 应 该 相当 接近 未 来 新 的 计算 机 中 实际 的 机 器 设计 。 
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10.2.1 机 器 模型 

基本 的 假设 是 一 个 机 器 包含 若干 不 同类 型 的 指令 发 射 部 件 。 每 一 个 发 射 部 件 对 应 于 一 种 
机 器 资源 ， 如 整数 或 浮 点 算术 运算 部 件 。 每 个 发 射 部 件 在 每 一 周期 可 以 发 出 一 个 操作 到 它 所 
控制 的 那个 功能 部 件 〈 假 设 是 流水 线 的 )。 每 个 发 射 部 件 将 有 一 个 关联 的 类 型 ， 指 明 它 所 控制 
的 资源 种 类 ， 还 有 一 个 延迟 ， 是 指 从 操作 发 出 到 操作 的 结果 可 用 之 间 需 要 的 周期 数 。 

发 射 部 件 用 两 个 整数 来 指定 : 部 件 类 型 和 该 类 型 中 特定 部 件 的 序号 。 记 号 

i 
表示 类 型 /的 第 /个 部 件 。 类 型 上 的 发 射 部 件数 目 是 ms。 这 样机 器 中 的 发 射 部 件 的 总 数 是 
M= Ym (10-1) 


其 中 是 机 器 中 可 以 使 用 的 发 射 部 件 类 型 的 数目 。 由 于 每 个 发 射 部 件 每 一 周期 能 发 出 一 个 操作 ， 
机 器 的 峰值 发 射 率 是 每 个 周期 M 个 操作 。 

为 说 明 方 便 ， 假 定 我 们 的 模型 是 YLIW 体 系 结构 ， 一 条 宽 指 令 由 M 个 子 指令 组 成 〈 每 个 子 
指令 对 应 于 一 个 发 射 部 件 )。 编 译 器 的 工作 为 每 一 周期 选择 数量 不 超过 M 的 一 组 操作 构成 一 条 宽 
指令 ， 使 得 类 型 为 的 操作 个 数 < m:。 如 果 类 型 :的 指令 个 数 严格 地 小 于 mx， 那 些 未 使 用 的 指令 
发 射 槽 填 人 空 操作 。 通 过 列 出 能 够 按 线性 方式 调度 的 指令 表 可 以 生成 等 价 的 超标 量 版 本 代码 。 

在 这 个 模型 之 下 ， 指 令 调度 问题 将 被 表示 为 一 个 图 ， 其 中 顶点 表示 一 条 给 定 类 型 的 指令 ， 
而 边 表示 两 条 指令 间 的 依赖 关系 ， 依 赖 边 对 应 的 延迟 等 于 边 的 源 顶 点 对 应 这 类 操作 的 延迟 。 


10.2.2 直线 型 代码 的 图 调度 
最 简单 的 调度 问题 是 一 个 基本 块 或 直线 型 代码 的 调度 。 如 可 预见 到 的 那样 、 基 本 的 需求 
是 一 个 依赖 图 ， 其 上 附 有 调度 所 需 的 额外 信息 。 这 个 图 (PARRA) 包含 四 个 成 分 : 
G=(N, E, type, delay) | (10-2) 
其 中 ，N 是 代码 中 指令 的 集合 ， 对 任 一 上 EN, ppe) 给 出 它 的 类 型 ，delay(n) 给 出 它 的 延迟 。 
车 两 条 指令 之 间 因 共享 一 个 寄存 器 而 后 一 条 指令 必须 等 前 一 条 指令 执行 完毕 才能 执行 ， 则 两 
条 指令 之 间 有 一 条 边 一 一 真 依赖 (一 次 写 后 读 或 RAW 通 常 称 为 这 种 语 境 中 的 相关 )、 反 依赖 
( 读 后 写 ) 以 及 输出 依赖 (SiS) 的 概念 在 此 都 是 很 重要 的 。 
一 个 正确 的 调度 是 图 的 顶点 集 到 表示 周期 数 的 非 负 整数 集 的 一 个 映射 S$， 满 足 
(1) 对 所 有 的 n EN, S(n)>0, 
(2) 如 果 (m,n) EE, S(m1) +delay(n,) < S(m), 
(3) 对 任意 类 型 +， 最 多 只 有 类 型 ! 的 mm 个 顶点 被 映射 到 给 定 的 整数 。 
直观 上 ， 条 件 (1) 保证 所 有 的 指令 均 会 在 某 一 点 被 执行 ; 条 件 (2) 保证 没有 依赖 被 破 
坏 ; 条 件 (3) 保证 在 任 一 周期 所 使 用 的 资源 均 未 超过 机 器 所 提供 的 资源 。 
调度 S 的 长 度 ， 记 为 L(S)， 定 义 为 
L(S) = max(S(n) + delay(n)) (10-3) 
直线 型 代码 调度 的 目标 是 找到 最 短 的 正确 的 调度 ， 其 中 一 个 直线 型 代码 的 调度 $ 称 为 是 最 


优 的 ， 如 果 对 于 同一 个 图 的 任何 其 他 正确 的 调度 9 有 
LS) < LS) 


un 


Un 
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很 明显 ， 最 短 的 调度 也 是 执行 时 间 最 少 的 调度 。 
10.2.3 表 调 度 

调度 一 个 直线 图 的 最 简单 的 方法 是 使 用 拓扑 排序 的 一 个 变形 一 一 构造 并 且 维 护 一 个 在 图 中 
没有 前 驱 的 指令 列表 。 任 何在 这 个 表 中 的 指令 均 可 被 调度 而 不 会 破坏 任何 依赖 ， 而 且 调 度 一 
个 指令 可 能 会 导致 把 新 的 指令 (被 调度 的 指令 的 后 继 ) 加 入 到 表 中 。 图 10-1 给 出 这 个 算法 ， 
很 自然 地 称 它 为 表 调 度 。 





procedure list_schedule(G, instr) 


11 G=\(N, E, type, delay) 是 调度 图 
I instr[c] 是 输出 的 表 ， 它 将 周期 映射 到 指令 的 集合 
1/ WLMaxC] 是 一 个 工作 表 的 数组 ， 用 来 保存 就 绪 的 指令 
1/ MaxC 比 任何 指令 的 最 大 延迟 大 1 
for each n € N do begin count[n] :=0; earliest[n] :=0; end 
for each (ni, n2) E E do begin 
count[n:] :=count(n.] + i; 
successors[m] :=successors{n,] U {n2}; 
end 
for i: =0 to MaxC — 1 do W[i] : =Ø; 
Weount :=0; 
for each n € N do 
if count[n] =0 then 
begin W[0] := WEO] U {n}; Weount := Weount+ 1; end 
c :=0; instrfc] : =Ø; // c 是 周期 号 
cW :=0; // cW 是 周期 c 的 工作 表 个 数 
while Wcount >0 do begin 
while W[cW]=@ do begin 
c:=c+ 1; instr[c] : =Ø; cW :=mod(cW +1, MaxC); 
end 
nextc : = mod(c + 1, MaxC); 
while W[cW] + Ø do begin 
从 WIcWW 中 选择 并 删除 任意 一 条 指令 x; 
让 在 周期 c 有 可 用 的 类 型 为 ype(x) 的 发 射 部 件 then begin 
instr[c] :=instrfc] U {x}; / 调度 该 指令 
Weount := Wcount — 1; 
for each y € successors{x] do begin 
count(y] :=count[y] 一 也 
earliest[y] : = max (earliestly], c + delay(x)); 
if count[y] =0 then begin 
loc := mod (earliest[y], MaxC); 
Wrioc] := Wiloc] U Ly]; Weount := Weount + 1; 
end 
end 
else W[nextc] : = W[nextc] U {x}; 
end 
end 
end list_schedule 





图 10-1 简单 的 表 调 度 算 法 
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基本 的 思想 是 在 一 条 指令 依赖 的 所 有 操作 都 执行 完 时 立即 调度 该 指令 。coxzz 数 组 用 来 决 
定 何 时 最 后 一 个 前 驱 已 被 调度 ， 而 earliest 数 组 用 来 决定 任 一 给 定 的 指令 最 时 可 能 的 调度 时 间 。 
当 一 条 指令 的 最 后 一 个 前 驱 已 被 调度 时 ， 则 它 的 earliest 值 迟到 足以 保证 对 该 指令 的 所 有 的 输入 
都 是 可 用 的 。 然 后 用 这 个 值 决 定 该 指令 存放 在 哪个 工作 表 中 。 需 要 有 足够 的 工作 表 以 确保 指令 
不 会 调度 到 它 所 依赖 的 指令 之 前 。 为 保证 这 一 点 ， 工 作 表 的 数目 只 需 等 于 最 大 的 延迟 加 上 1。 
这 样 ， 如 果 一 条 指令 可 被 调度 的 最 早 周期 是 c， 我 们 就 把 它 存放 在 工作 表 Wtmod(c, MaxC)] 中 。 

图 10-1 中 的 算法 是 一 相当 标准 的 基于 拓扑 排序 的 算法 。 这 个 算法 典型 的 特征 之 一 是 随机 
地 从 工作 表 选 择 。 如 果 一 个 周期 的 工作 表 中 所 有 的 指令 都 能 在 该 周期 中 被 调度 ， 那 么 随机 选 
择 不 会 成 为 问题 。 但 若 没 有 足够 的 资源 将 所 有 的 指令 在 同一 周期 调度 ， 情 况 就 有 所 不 同 了 。 
在 这 种 情况 下 ， 所 有 未 调度 的 指令 被 放 在 下 一 个 周期 的 工作 表 中 ， 如 果 一 条 这 样 延迟 的 指令 
位 于 关键 路 径 上 ， 则 调度 的 长 度 就 会 增加 。 下 面 用 一 个 简单 例子 来 说 明 这 一 点 : 


mult c, a, b 
mult f, d, e 
add f, f, g 
add f, f, h 
add f, f,c 


如 果 这 个 指令 序列 被 调度 到 只 有 一 个 乘法 部 件 的 机 器 上 执行 ， 上 面 的 调度 算法 必须 从 两 
个 乘法 操作 中 选择 一 个 调度 到 第 一 个 周期 执行 。 这 里 ， 第 二 个 是 正确 的 选择 ; 选择 第 一 个 将 
会 因 延 迟 位 于 关键 路 径 上 的 加 法 的 求 值 操 作 而 增加 调度 的 长 度 。 可 以 通过 修改 算法 ， 加 入 一 
遍 对 图 的 预先 遍历 ， 确 定 每 条 指令 后 面 所 需 保 留 的 最 小 周期 数 (利用 项 目 调度 中 的 一 个 标准 
算法 )。 图 10-2 给 出 这 样 一 个 图 的 反 向 遍历 算法 。 


procedure find_remaining(G, remaining) 


II G=(N, E, type, delay) 是 调度 图 
1/ remaining[x] 是 输出 变量 ， 含 有 关键 路 径 上 从 x 开始 到 最 后 -个 直接 或 间接 地 依赖 于 x 的 指令 间 的 周期 数 


for each n € N do begin count[n] :=0; remaining[n] :=delay(n); end 
for each (7, n2) E E do begin 
count{n,} := count[n,} +1; 
predecessors(n,] := predecessors(n,] U {nz}; 
end 
W:=@; 
for each n EN do if count[n] =0 then W:=WU {n}; 
while W + Ø do begin 
从 W 中 任 选 并 删除 一 条 指令 x; 
r :=remaining[x]; 
for each y € predecessors[x] do begin 
count[y] :=count[y] — 1; 
remaining[y] := max(remaining[y], r+ delay(y)); 
if count[y]=0 then W:=W U {y}; 
end 
end 
end find_remaining 


图 10-2 确定 关键 指令 
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可 以 在 表 调度 中 加 入 对 关键 路 径 信息 ， 这 只 需 选 择 周期 数 保留 值 最 高 的 一 个 ， 而 不 是 随机 
地 选择 一 条 指令 。 这 种 选择 的 方式 需要 将 工作 表 组 织 成 一 个 优先 队列 ， 这 会 导致 算法 的 时 间 
复杂 度 中 插入 一 个 对 数 因子 。 这 个 方法 在 文献 中 被 称 为 最 高 层 优 先 (highest levels first, HLF) 
的 启发 式 方法 。 

10.2.4 踪迹 调度 

表 调度 方法 在 基本 块 内 可 以 得 到 很 好 的 调度 ， 但 是 在 基本 块 的 边界 效果 就 不 够 好 了 。 因 
为 表 调度 方法 不 越过 基本 块 的 边界 查找 ， 因 此 它 必 须 在 基本 块 的 尾部 插入 足够 多 的 指令 ， 以 
保证 所 有 操作 的 结果 在 调度 下 一 个 基本 块 之 前 是 可 用 的 。 由 于 典型 的 程序 中 基本 块 的 个 数 通 
常 比 较 多 ， 这 些 收尾 的 指令 可 能 导致 很 大 的 开销 。 

消除 这 种 开销 的 方法 之 一 是 产生 一 个 非常 长 的 基本 块 ， 叫 做 踪迹 (trace) ， 并 对 其 应 用 表 
调度 。 简 单 地 说 ， 踪 迹 是 由 _ 些 基本 块 组 成 的 经 过 程序 全 部 或 部 分 的 一 条 路 径 ， 踪 迹 调度 候 
定 控制 沿 这 条 路 径 中 的 基本 块 ， 一 次 调度 整个 踪迹 中 的 指令 。 当 然 ， 在 控制 流 能 能 够 进入 或 
退出 这 条 路 径 的 点 上 ， 必 须 插入 一 些 修正 代码 。 在 理想 情况 下 ， 被 选中 调度 的 第 一 条 踪迹 代 
表 程 序 最 常 执行 的 路 径 ， 所 以 产生 的 调度 对 大 多 数 情况 来 说 是 最 优 的 。 因 为 踪迹 调度 使 用 基 
本 块 调度 技术 ， 因 此 它 不 能 调度 有 环 的 图 。 或 者 必须 将 循环 展开 ,或 者 把 循环 体 作为 一 个 基 
本 块 调度 ， 而 在 边界 处 插入 修正 代码 。 

对 于 一 个 给 定 的 有 向 无 环 调度 图 ， 踪 迹 调度 的 第 一 步 是 把 图 划分 为 -组 踪迹 。 第 一 条 被 
选中 的 踪迹 希望 是 最 可 能 通过 此 图 的 路 径 。 这 路 径 被 作为 一 个 大 的 基本 块 调度 。 接 下 来 ， 
选择 经 过 那些 剩余 的 基本 块 的 最 可 能 的 路 径 作为 下 一 条 踪迹 ， 并 加 以 调度 。 如 果 在 第 二 条 踪 
迹 中 的 某 一 点 有 分 支 进入 第 一 条 踪 述 ， 则 需 在 其 间 插 入 修正 代码 以 满足 第 一 条 踪迹 中 对 资源 
的 假设 。 同 样 地 ， 若 在 第 一 条 踪迹 中 的 某 处 有 分 支 进入 第 二 条 踪迹 ， 亦 需 在 其 间 插入 修正 代 
码 以 满足 第 二 条 踪 迹 中 对 资源 的 假设 。 这 个 过 程 将 重复 直到 程序 中 所 有 的 基本 块 均 被 调度 。 

简 而 言 之 ， 踪 迹 调度 可 以 被 描述 为 以 下 三 个 步 难 的 重复 应 用 : 

(1) 选择 一 条 穿 过 程序 的 踪迹 。 踪 迹 的 选择 并 不 像 初 看 起 来 那么 容易 ， 即 使 有 描述 信息 
也 是 如 此 。 

(2) 调度 选择 的 踪迹 。 

(3) 插入 修正 代码 。 因 为 修正 代码 是 调度 踪迹 之 外 的 新 的 代码 。 它 建立 必须 反馈 给 踪迹 
调度 的 新 的 基本 块 。 

第 三 步 是 踪迹 调度 最 有 趣 的 方面 。 为 说 明代 码 修 
正 所 需 的 类 型 的 ， 考 虑 图 10-3 中 简单 例子 。 

图 中 ， 踪 迹 由 图 左边 的 基本 块 组 成 。 如 果 这 条 
踪迹 被 调度 成 代码 序列 

j=j+l 

if el 

i=j+2 
那么 对 ;的 赋值 被 移 到 分 支 语句 的 下 面 ， 这 将 会 使 得 
对 k 的 赋值 得 到 错误 的 结果 。 这 个 问题 可 以 通过 沿 控 
制图 中 的 分 裂 边 复制 对 i 的 赋值 而 解决 (图 10-4)。 mios EREA 

新 插入 的 指令 可 以 独自 作为 一 条 踪迹 被 调度 ， 也 可 以 和 对 赋值 的 基本 块 所 在 的 踪迹 一 起 
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调度 。 一 般 来 说 ， 将 一 些 操 作 移动 到 一 个 踪迹 的 分 支点 之 下 或 一 个 踪迹 的 连接 点 之 上 ， 均 需 
插入 如 图 中 所 示 的 类 似 的 修正 代码 。 而 在 无 法 通过 依赖 分 析 确 定 对 其 他 指令 的 影响 的 情况 下 ， 
踪迹 调度 不 会 移动 操作 向 上 越过 (控制 流 的 ) 分 支点 或 向 下 越过 (控制 流 的 ) 汇合 点 。 





图 10-4 调度 后 带 有 修改 代码 的 踪迹 


鉴于 调度 一 条 踪迹 可 能 导致 新 踪迹 的 产生 ， 一 个 很 自然 的 问题 是 : 踪迹 调度 是 否 收敛 ? 
也 就 是 说 ， 在 踪迹 调度 的 过 程 中 ， 有 没有 可 能 出 现 这 种 情况 : 新 插 人 
的 踪迹 和 正在 调度 的 踪迹 一 样 多 或 更 多 ?幸运 的 是 ， 对 第 二 个 问题 的 。 (C!s ) 
答案 是 不 会 ， 踪 迹 调度 一 定 会 收敛 。 但 是 ， 在 最 坏 的 情况 下 ， 虽 然 收 
伍 ， 但 会 导致 产生 大 量 的 修正 代码 。 从 Ellis 的 学 位 论文 [109] 摘 引 的 图 (AL) 
10-5 的 例子 说 明 这 种 最 坏 的 情况 。 

踪迹 调度 可 以 像 移动 其 他 操作 那样 移动 分 支 操作 越过 多 个 基本 


块 ， 因此， 从 这 个 例子 可 能 得 到 这 样 的 调度 ， 其 中 调度 的 分 支 操作 的 (©) Œ) 
顺序 被 颠倒 过 来 了 : 
Cn 
Go 
Cr- 
Ar 
Ci 
C—O) 
这 样 的 调度 将 需要 如 图 10-6 所 示 的 修正 代码 。 对 每 一 条 离开 踪迹 Or.) 


的 边 ， 需 要 复制 除 控制 该 边 的 基本 块 之 外 的 所 有 其 他 基本 块 。 

这 里 ， 总 的 操作 数目 增加 到 O(nn!)， 大 约 是 O(ne"”)。 尽 管 这 样 极 
端的 情况 在 实际 的 踪迹 调度 的 实现 中 尚未 出 现 过 ， 但 要 构造 出 类 似 上 ios 说 明 最 坏 情况 
述 的 测试 用 例 来 也 是 容易 的 .假定 踪迹 调度 利用 循环 展开 来 处 理 循环 ， 下 代码 膨胀 的 例子 
一 个 仅 包 含 一 个 条 件 判别 的 简单 的 内 层 循环 展开 足够 多 的 次 数 后 就 可 
能 产生 上 述 情 形 。 

程序 设计 语言 中 的 循环 结构 所 传递 的 关键 信息 之 一 是 指出 循环 体会 被 执行 许多 次 。 依 赖 
分 析 和 向 量化 都 利用 这 一 选 代 性 质 ， 试 图 分 析 并 调度 循环 体 的 不 同 欠 代 。 踪 迹 调 度 的 缺点 之 
一 是 不 能 以 这 种 方式 处 理 循 环 ， 而 是 必须 要 将 它 转 换 为 直线 型 代码 。 后 面 几 段 将 介绍 一 些 利 
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用 循环 的 迭代 特性 的 调度 方法 ,但 在 这 之 前 ， 我 们 先 介绍 与 直线 型 代码 调度 有 关 的 一 些 关 键 
问题 是 值得 的 。 














一) 
-C—C 
© 
romney 
© © 
CHG) O 
a © O 
Cs) 
© 
A 
© 





图 10-6 踪迹 调度 的 代码 膨胀 


直线 型 代码 调度 中 的 一 些 问题 

在 到 目前 为 止 的 讨论 中 ， 指 令 调度 看 起 来 比 项 目 管理 一 一 建 一 个 PERT 图 再 对 其 拓扑 排序 
复杂 不 了 多 少 。 但 实际 上 ， 指 令 调度 所 需 的 大 部 分 复杂 分 析 都 作为 细节 隐藏 在 基本 的 算法 背 
后 。 这 一 段 较 深 入 地 说 明 一 些 细节 。 

到 目前 为 止 ， 在 讨论 指令 调度 时 我 们 忽略 了 一 个 关键 的 机 器 资源 一 一 寄存 器 。 介 绍 的 每 一 
种 算法 都 假定 在 指令 调度 之 前 寄存 器 已 经 被 分 配 了 。 尽 管 这 样 做 会 由 于 限制 了 一 组 资源 而 大 
大 简化 了 指令 调度 ， 但 同时 也 限制 了 所 得 到 的 并 行 度 。 一 旦 一 个 变量 被 限定 到 一 个 特定 的 寄 
存 器 ， 就 很 容易 因 另 一 个 与 之 无 关 的 变量 被 分 配 到 同一 个 寄存 器 而 人 为 地 引发 依赖 。 这 些 依 
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赖 进而 会 阻碍 两 条 指令 的 并 发 执行 ， 尽 管 在 原来 的 程序 中 并 没有 要 求 两 者 串 行 执行 。 寄 存 器 
分 配 和 指令 调度 的 相对 顺序 目前 仍 是 许多 计算 机 科学 家 争论 的 问题 。 

寄存 器 分 配 的 第 二 个 影响 是 掩盖 有 效 调度 所 需 的 真正 的 依赖 分 析 。 容 易 这 样 假设 ， 将 变 
量 归结 为 寄存 器 会 使 得 构造 依赖 图 更 容易 ， 因 为 寄存 器 是 明确 定义 的 标量 。 若 仅 对 寄存 器 而 
言 ， 这 是 对 的 ; 但 这 里 忽略 了 内 存 的 取 数 和 存 数 操作 。 内 存 取 数 操作 若 未 命中 高 速 缓存 会 非 
常 慢 ， 而 大 多 数 计算 必须 等 待 所 需 值 的 取 数 操作 完成 。 因 此 ， 能 否 将 取 数 操作 调度 得 尽 可 能 
早 对 于 一 个 有 效 的 指令 排序 是 至 关 重 要 的 。 在 这 种 情况 下 ， 依 赖 分 析 是 必需 的 ， 因 为 取 数 操 
作 不 能 移 到 对 同一 内 存单 元 的 存 数 操作 之 前 。 没 有 相当 复杂 的 分 析 ， 在 存储 访问 之 间 进 行 移 
动 几 乎 是 不 可 能 的 ， 而 结果 就 是 产生 很 差 的 调度 。 


10.2.5 循环 内 的 调度 

前 面 提 到 ， 直 线 型 代码 调度 和 踪迹 调度 的 主要 缺点 是 它们 对 循环 的 处 理 不 够 好 。 它 们 通 
常 采 用 的 作法 是 展开 循环 ， 使 得 循环 体 尽 可 能 地 大 ， 然 后 再 尽 可 能 高 效 地 调度 循环 体 。 这 种 
方法 忽略 跨越 循环 迭代 间 的 并 行 性 。 这 一 节 介 绍 另 一 种 方法 ， 它 试图 最 大 限度 地 发 气 迭 代 间 
的 并 行 性 ， 而 不 是 只 考虑 直线 型 代码 的 调度 。 由 于 循环 体现 的 计算 将 被 重复 执行 ， 这 种 方法 
更 着 重 在 程序 执行 的 热点 区 域 上 。 

核心 调度 

调度 循环 的 一 种 直接 的 调度 策略 是 将 循环 分 为 三 个 部 分 : 

1. 核心 ， 包含 当 循环 的 执行 到 达 稳 态 后 每 一 轮 迭 代 必 需 执行 的 代码 

2. 前 级 ， 包 含 循环 的 执行 到 达 稳 态 前 需要 执行 的 代码 

3. 后 级 ， 包 含 核心 执行 完 以 后 ， 为 结束 循环 还 需 执行 的 代码 
这 里 ， 调 度 的 目标 是 最 小 化 核心 代码 的 执行 时 间 ， 因 为 它 代表 循环 重复 执行 的 部 分 。 而 前 缀 
和 后 缀 部 分 只 是 为 核心 代码 的 执行 作 准 备 和 收尾 工作 。 正 因为 如 此 ， 所 以 有 如 下 的 定义 。 


定义 10.1 核心 调度 问题 是 对 一 给 定 的 循环 寻找 其 最 小 长 度 的 核心 代码 。 


那么 ， 最 小 化 核心 代码 的 长 度 能 保证 得 到 循环 的 最 优 调 度 吗 ? 对 于 和 迭代 次 数 很 大 的 循环 
而 言 ， 显 然 是 这 样 的 。 而 对 于 揭 代 次 数 比较 小 的 循环 〈 选 代 次 数 为 零 是 最 坏 的 情况 ， 因 为 任 
何 前 级 都 降低 速度 )， 就 不 一 定 了 。 不 过 ， 由 于 迭代 次 数 比 较 少 的 循环 在 总 的 执行 时 间 中 所 占 
的 比例 也 比较 小 ， 如 何 调度 它 并 不 重要 。 因 此 ， 在 本 章 其 余部 分 ， 我 们 总 假设 最 优 的 核心 调 
度 就 代表 最 优 的 循环 调度 。 


定义 10.2 核心 调度 问题 是 一 个 图 
G=\(N, E, delay, type, cross) 
其 中 ， 对 下 的 每 条 边 定义 的 cross (m, m) Btn Fanz ARR ABBR. 


再 次 说 明 ， 如 果 两 个 结 点 之 间 存 在 依赖 ， 则 两 个 结 点 之 间 存 在 一 条 边 ， 并 且 cross 仅 代表 
依赖 的 阀 值 ( 距 离 )。 循 环 无 关 依赖 的 阀 值 为 0。 

核心 调度 的 目标 是 指令 经 过 循环 迭代 时 时 间 上 的 移动 ， 而 不 是 在 一 个 迭代 内 空间 上 的 移 
动 。 也 就 是 说 ， 那 些 很 早 就 需要 用 到 其 结果 的 关键 指令 被 移 到 前 面 的 循环 迭代 中 执行 ， 这 样 ， 
在 当前 和 迭代 中 需要 时 ， 它 们 的 结果 已 经 是 可 用 的 。 同 样 ， 位 于 关键 路 径 尾 部 的 指令 被 移 到 后 
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面 的 选 代 中 去 ， 以 缩短 当前 迭代 的 完成 时 间 。 换 名 话说， 循环 的 一 个 迭代 的 执行 体 以 流水 方 
式 跨 越 多 个 选 代 ， 以 便 在 一 次 选 代 中 最 大 限度 地 利用 可 用 资源 。 这 一 过 程 通常 称 为 软 流水 方 
法 ， 可 以 更 形式 化 地 定义 如 下 : 
定义 10.3 ”核心 调度 问题 的 一 个 解 是 一 对 表 的 二 元 组 ($, 刀 ， 其 中 调度 3 将 每 一 条 
指令 n 映 射 到 核心 内 的 一 个 周期 ， 而 迭代 /将 每 一 条 指令 映射 到 从 零 开 始 的 一 个 迭代 偏 
移 量 ,使 得 对 E 中 的 每 一 条 边 (n,n), WE 


S[n,] + delay(n,) < S[n2] + U[n2] - Iin} + cross(n1, n2) Lx(S) (10-4) 


Rp, LS) 是 5 的 核心 长 度 。 


L, (S) = max(SIn]) (10-5) 


用 一 个 简单 的 例子 可 以 使 这 个 概念 变 得 更 清楚 。 假 设 我 们 调度 下 面 的 循环 体 : 


lw 

Iw 

lf 
10 1f 
11 addf 
12 sf 
13 addi 
14 comp 
15 ble 


rl, 0 

r2, 400 

frl, c 

fr2, a(rl) 
fr2, fr2, frl 
r2, b(rl) 
rl, rl, 8 

rl, r2 

10 


同样 ， 假 定 机 器 有 三 个 功能 部 件 : 一 个 存 取 部 件 ， 一 个 整数 运算 部 件 ， 以 及 一 个 浮 点 运算 部 
件 。 所 有 取 数 操作 有 2 个 周期 的 延迟 ; 存 数 操作 有 1 个 周期 的 延迟 ; 浮 点 加 法 有 3 个 周期 的 延迟 。 
整数 部 件 处 理 所 有 分 支 操作 ， 对 blt 操 作 ， 跳 转 到 目标 需要 一 个 周期 的 延迟 。 所 有 其 他 的 整数 
指令 均 有 1 个 周期 的 延迟 。 对 于 上 面 循环 中 的 指令 ， 一 个 合法 的 需要 3 个 周期 的 核心 调度 如 下 : 


S[10] = 0; 
5[11] = 2; 
S[12] = 2; 
S[13] = 0; 
Sf14] = 1; 
S[15] = 2; 


I[10] = 0; 
I[11] = 0; 
I[12] = 1; 
I[13] = 0; 
[14] = 0; 
I[15] = 0; 


这 个 调度 ， 如 图 10-7 所 示 ， 指 出 在 一 个 迭代 的 第 一 个 周期 ， 执 行 浮 点 取 数 和 增 量 操作 ; 
比较 操作 在 第 二 个 周期 执行 ; 而 分 支 、 浮 点 加 法 和 浮 点 存 数 操作 则 在 第 三 个 周期 执行 。 
















ait [ee 
am [eee ene 


ooo owe 
sf fr2.b-16(rl) Ime | fadd fr2 


图 10-7 核心 调度 的 例子 


周期 2 
周期 3 


需要 注意 的 是 ， 如 果 保 持原 程序 中 指令 的 形式 ， 这 个 调度 就 是 非法 的 ; 为 得 到 正确 的 结 
果 ， 必 须 对 指令 的 形式 作 一 定 的 修改 。 举 例 来 说 ， 在 r1 两 次 增 量 及 下 个 迭代 的 浮 点 取 数 操作 
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改写 结果 之 后 ， 浮 点 存 数 操作 被 提前 一 个 选 代 执行 。 这 意味 着 该 存 数 操作 需要 对 r1 作 调整 ， 
并 需要 一 个 额外 的 浮 点 寄存 器 来 存放 浮 点 加 的 结果 ， 直 到 存 数 操作 可 以 执行 为 止 。 假 定 fr3 是 
可 用 的 ， 我 们 得 到 如 下 正确 的 核心 : 


kl 1f fr2, alri); addi rl, rl, 8 
k2 comp rl, r2 
k3 sf fr3, b-16(r1); ble kl addf fr3, fr2, frl 


当然 ， 这 段 代 码 在 第 一 次 选 代 中 是 不 正确 的 ， 因 为 它 假定 fr3 和 r1 已 被 之 前 的 迭代 定 值 。 
这 意味 着 在 进入 核心 之 前 必须 执行 该 循环 一 次 ( 除 掉 依 赖 于 已 完成 的 前 一 次 迭代 的 那些 代码 )， [526 


以 完成 必要 的 初始 化 。 
1wrl，0 
Iw r2, 400 
lf fri, c 
pl if fr2, a(rl); addi rl, rl, 8 
p2 comp rl, r2 
p3 beq el; addf fr3, fr2, frl 
HE., RU —-RERDBRTRSE, KEP MAL RES: 
el nop 
e2 nop 


e3 sf fr3, b- 8(r1) 


整个 循环 的 调度 在 下 面 给 出 。 核 心 的 长 是 3 个 周期 ， 假 定 整数 部 件 在 每 个 周期 处 于 忙 状 


态 ， 因 此 不 可 能 有 更 短 的 调度 。 
Iwrl, 0 
Iw r2, 400 
If frl, c 
pl 1f fr2, a(r1); addi rl, rl, 8 
p2 comp rl, r2 
p3 beq el; addf fr3, fr2, fri 
kl 1f fr2, a(rl); addi rl, rl, 8 
k2 comp rl, r2 
k3 sf fr3, b-16(r1); ble kl; addf fr3, fr2, fri 
el nop 
e2 nop 
e3 sf fr3, b-8(rl1); addf fr3, fr2, fri 


指令 p1-p3 形 成 前 级 ，k1-k3 形 成 核心 代码 ， 而 e1-e3 形 成 后 缀 。 


定义 10.4 令 N 为 循环 上 界 。 那 么 调度 长 度 L(S) 由 下 式 给 出 : 
L(S) = NL,(S) + max(S[7] + delay(n) + (I[n]- DL,(S)) (10-6) 


这 个 定义 使 我 们 注意 到 ， 对 于 非常 大 的 N， 最 小 化 核心 的 长 度 也 就 是 最 小 化 调度 的 长 度 。 
因为 N 在 编译 时 间 通常 是 未 知 的 ， 而 迭代 次 数 较 小 的 循环 无 论 怎样 调度 ， 对 总 的 运行 时 间 的 影 
响 也 较 小 ， 看 来 假定 w 很 大 是 合理 的 ， 并 由 此 尝试 构造 可 能 最 短 的 核心。 

核心 调度 算法 

存在 最 优 的 核心 调度 算法 吗 ? 为 回答 这 个 问题 ， 必 需 为 做 好 调度 确定 合理 的 下 界 。 实 际 
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上 ， 根 据 不 同 的 分 析 ， 我 们 可 以 得 到 两 种 不 同 的 下 界 。 
资源 使 用 约束 ”假设 在 循环 内 没有 依赖 环 。 令 旭 表 示 每 一 次 迭代 中 必须 要 发 射 到 类 型 为 
的 功能 部 件 上 执行 的 指令 的 条 数 。 那 么 


1,(S) > 加 (10-7) 

axla 

换 句 话说 ， 如 果 每 个 周期 只 能 发 出 mm 个 类 型 为 ! 的 运算 ， 则 发 出 "条 指令 需要 至 少 [nm] 个 周 

期 。 这 样 ， 如 果 我 们 对 所 有 的 操作 类 型 取 这 些 下 界 的 最 大 值 ， 核 心 不 可 能 比 此 最 大 值 短 。 
我 们 可 以 证 明 ， 对 于 一 个 疫 有 依赖 环 和 控制 流 变 化 的 循环 ， 存 在 调度 $ 使 得 


L(S) = mo | (10-8 ) 
t m, 

换 句 话说 ， 在 没有 依赖 环 的 情况 下 ， 找 到 一 个 最 优 长 度 的 核心 调度 总 是 可 能 的 。 为 了 得 
到 这 个 结果 ， 我 们 构造 一 个 如 图 10-8 所 示 的 算法 ， 它 对 给 定 的 长 度 忆 确定 核心 的 调度 。 注 意 这 


个 算法 要 求 L 满 足 式 (10-7) 中 的 不 等 式 。 





procedure loop_schedule(G, L, S, D 


Mt G 是 循环 体 的 调度 图 
1 S 和 /定义 最 终 的 调度 中 的 核心 
1/ 工 是 被 调度 的 循 坏 中 指令 的 条 数 ， 该 值 至 少 为 等 式 (10-8) 给 出 的 最 小 调度 长 度 ; 
对 G 作 拓扑 排序 ; 
for each G 中 的 指令 zx， 按 拓扑 顺序 do begin 
earlyS :=0; earlyl :=0; 
for each GHP xfj iniy do 
thisS :=S[y]+delay(y); this! : =ILy]; 
if thisS > L then begin 
thisS :=mod(thisS, L), thisl :=thisi+ (thisS/L]; 
end 
if this] > earlyl®thisS > earlyS then begin 
earlyl :=thisl, earlyS := thisS; 
end 
end 
从 周期 eariyS 开 始 ， 找 到 第 一 个 周期 co 
其 中 ，x 所 需 的 资源 是 可 用 的 ， 
如 果 需 要 ， 坏 绕 到 核心 的 开始 ; 
Six] := co; 
if co<earlyS then /[x] :=early[+1; else I[x] := earlyl; 
end 





end loop_schedule 


图 10-8 在 没有 依赖 环 的 循环 中 寻找 最 小 长 度 核心 
这 个 算法 实质 上 是 一 个 表 调 度 算法 ， 其 中 加 了 记分 板 以 记录 跨越 循环 和 友 代 时 的 资源 使 用 
情况 。 当 调度 器 为 每 一 条 指令 分 配 发 射 槽 时 ， 它 同时 在 记分 板 上 标记 处 于 忙 状态 的 资源 。 当 
它 尝 试 在 等 式 (10-8) 指明 的 长 度 的 核心 结束 之 后 的 某 一 时 刻 发 射 一 条 指令 4 时 ， 调 度 器 要 作 
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修改 。 它 会 绕 回 到 核心 的 起 始 ， 并 将 增加 /[ 站 的 值 ， 因 此 将 指令 z 移 到 后 面 一 个 迭代 。 因 为 调 
度 长 度 是 由 限制 最 紧 的 资源 决定 的 ， 因 此 所 有 其 他 类 型 的 指令 都 将 轻而易举 地 归并 到 这 个 调 
度 中 。 对 于 限制 最 紧 的 资源 ， 把 这 样 的 指令 移 到 后 面 的 欠 代 中 (由 于 没有 依赖 环 这 是 可 能 做 
到 的 )， 这 样 我 们 总 可 以 在 核心 中 找到 空 槽 ， 将 指令 放 进 去 ， 因 为 正好 有 我 们 需要 的 那么 多 空 
槽 。 这 对 寄存 器 可 能 会 有 影响 ， 但 假设 有 足够 多 的 寄存 器 ， 所 以 保证 核心 适合 于 给 定 长 度 。 

为 说 明 这 种 方法 ， 考 虑 在 一 台 有 3 个 整数 部 件 和 两 个 访 存 部 件 的 机 器 上 调度 下 列 并 无 多 大 
意义 的 指令 序列 : 

10 1w a, x (i) 

11 addi a, a, 1 

12 addi a, a, 1 

13 addi a, a, 1 

14 sw a, x (i) 

定理 指出 存在 一 个 长 度 为 1 的 核心 调度 :三 条 整数 指令 分 配给 三 个 整数 部 件 。 一 个 普通 的 
表 调 度 算法 不 可 能 找 出 这 样 一 个 调度 ， 因 为 这 里 一 个 代码 序列 中 每 一 条 指令 都 依赖 于 前 一 条 ， ie 
故 需要 5 个 周期 才能 完成 

调度 第 一 条 指令 是 简单 的 ， 导 致使 用 下 列 资源 : 


em | em | e | wane | 





存储 器 1 
10:S=0OT=0 











第 二 条 指令 的 普通 调度 将 它 压 到 该 调度 结束 之 后 ， 所 以 它 回 绕 到 下 一 次 迭代 : 
存储 器 ! | 整数 1 su | 整数 3 存储 器 2 
10:S=0; T=0 1 ha S=0;}=1 


对 余下 的 每 条 指令 类 似 地 重复 此 过 程 ， 导 致 最 后 一 个 资源 的 使 用 














存储 器 1 “| S% 
10:$S=0;,1=0 his =0;}=1 





整数 2 | ”整数 3 存储 器 2 
1)2:S=01=213:S=071=314:S=01-4 











这 个 调度 的 长 度 是 1; 有 意思 的 是 , 在 每 个 周期 , 每 个 部 件 都 在 循环 的 一 个 不 同 的 迭代 上 执行 。 
这 一 事实 意味 着 这 一 序列 不 能 按 原来 书写 的 形式 执行 ， 因 为 现在 每 个 部 件 都 需要 一 个 不 同 的 
寄存 器 用 于 它 的 迭代 。 最 终 的 代码 必须 转换 成 某 种 与 下 面 代 码 类 似 的 形式 : 

10 Iw a, x (i) 

11 addi b, a, 1 

12 addi c, b, 1 

13 addi d, c, 1 

14 sw d, x (i) 

这 个 例子 说 明 结 果 的 主要 问题 : 未 回答 是 否 有 足够 的 硬件 寄存 器 。 这 个 问题 将 在 后 面 
“寄存 器 资源 ”一 段 中 进一步 讨论 。 

在 等 式 (10-8) 中 考虑 依赖 环 的 限制 的 好 处 在 于 能 保证 只 要 有 资源 可 用 ， 指 令 就 能 被 调度 。 
依赖 环 会 导致 指令 被 推 向 多 个 迭代 ， 从 而 增 大 最 小 调度 的 大 小 。 正 如 下 面 的 限制 所 说 明 的 。 

有 环 数据 依赖 限制 给 定 一 个 依赖 环 (m, m, n), M ~ B30 
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5 delay(n,) 
L (S) > => (10-9) 
» cross(n, ,n,,,) 
因此 有 
1 >deio) \ 
LS) > max; 一 一 一 一 (10-10) 
> cross(n, N,,,) 
FOP cid ROH PATA RT 


式 (10-9) 中 的 分 母 表示 依赖 环 跨 越 的 循环 迭代 次 数 的 计数 ， 分 子 表示 执行 一 次 依赖 环 
上 的 所 有 指令 所 需 的 机 器 周期 数 。 这 样式 (10-9) 的 右 端 代 表 每 一 次 迭代 中 计算 依赖 环 的 所 
需 的 周期 数 。 显 然 ， 一 个 正确 的 核心 每 一 次 迭代 所 需 的 周期 数 不 可 能 更 少 ， 否 则 不 可 能 计算 
依赖 环 上 的 正确 值 。 


定义 10.5 式 (10-9) 右 端的 值 称 为 依赖 环 的 儿 府 。 


由 式 〈10-7) 和 式 (10-10) 给 出 的 两 个 约束 条 件 ， 构 成 带 有 依赖 环 的 循环 的 核心 调度 算 
法 的 基础 ， 如 图 10-9 所 示 。 此 算法 先 利用 式 (10-7) 和 式 (10-10) 计算 核心 调度 的 最 小 值 ， 
然后 利用 图 10-8 中 的 算法 loop_schedule， 试 图 找 出 该 长 度 的 一 个 调度 。 因 为 只 要 L 满 足 式 
(10-7) 中 的 不 等 式 ， 此 算法 总 能 在 长 度 为 L 的 核心 中 找到 调度 ， 所 以 我 们 必须 要 问 ， 究 竟 什 
么 原因 会 导致 失败 ? 在 这 种 情况 下 ， 如 果 任 何 依赖 环 的 长 度 增加 ， 就 会 导致 核心 完成 计算 的 
和 迭代 次 数 的 增加 ， 我 们 就 得 不 到 满意 的 调度 。 这 可 以 通过 检查 是 否 依赖 环 的 某 一 条 指令 能 延 
迟 一 个 迭代， 或 者 通过 检查 一 个 调度 的 延迟 是 否 会 导致 依赖 环 中 的 最 后 一 条 指令 产生 的 输出 
结果 来 不 及 传 给 依赖 环 的 下 一 个 迁 代 的 第 一 条 指令 。 


procedure kernel_scheduie(G, S, D 


1/ G 是 循环 的 调度 图 

ii sched 是 输出 调度 

使 用 all-pairs shortest-path 算 法 找 出 调度 图 G 中 斜率 最 大 的 环 ; 

将 所 有 这 样 的 环 标 为 关键 环 ; 

将 C 中 所 有 在 关键 环 上 的 指令 标 为 关键 指令 ; 

HR (10-10) 给 出 的 关键 依赖 环 的 最 大 斜率 和 式 (10-7) 给 出 的 硬件 约束 计算 循环 的 下 界 LB 


wN:= 原 循环 体 中 指令 的 条 数 ; 
令 GCo 是 G 通 过 消除 循环 体内 依赖 环 上 到 最 前 面 指令 的 边 而 得 到 的 所 有 破坏 的 图 ; 
failed := true; 
for L :=LB to N while failed do begin 
I 尝试 按 长 度 L 调 度 循环 
loop_schedule(Gy, L, S, D); 
1/ 测试 调度 是 否 成 功 
allOK : = true; 





图 10-9 核心 调度 的 算法 





for each 依 赖 坏 C while aliOK do begin 
for each C 上 的 指令 v while allOK do begin 
if /[v] > 0 then allOK : =false; 
else if VERCH May - RIBS. 
Vor HIE RES, AL 
mod(S[v] + delay(v), L) > Siva] - 


then allOK : = false; 


end 


end 
if allOK then failed := false; 
end 


end kernel_schedule 
图 10-9 ( 续 ) 


如 果 算 法 未 能 找到 一 个 合适 的 调度 ， 它 会 增加 正在 搜索 的 最 小 长 度 的 调度 的 值 ， 并 且 再 
尝试 一 次 ， 直 到 它 最 后 成 功 。 需 要 注意 的 是 ， 循 环 总 能 被 调度 到 一 个 具有 循环 体 长 度 的 核心 
中 ， 所 以 最 后 总 会 成 功 的 。 但 即使 调度 成 功 了 ， 它 所 需要 的 寄存 器 的 个 数 可 能 超过 机 器 中 的 
寄存 器 的 数目 。 

图 10-9 中 的 核心 调度 算法 的 效果 可 以 通过 对 图 10-8 中 的 loop_schedule 稍 作 修 改 而 得 到 提 
高 ， 类 似 于 前 面 讨论 过 的 对 表 调 度 算法 的 改进 一 样 。 当 选择 下 一 条 指令 进行 调度 上 时， 如 果 不 
止 一 条 指令 就 绪 ， 该 算法 应 首先 选择 一 条 在 关键 依赖 环 上 的 指令 ， 其 次 选择 一 条 在 任何 依赖 
环 上 的 指令 ， 最 后 才 调度 不 在 任何 依赖 环 上 的 指令 。 这 一 修改 是 简单 的 。 

这 一 节 中 的 算法 计算 循环 的 核心 调度 ， 但 仍 需 要 产生 前 级 和 后 缀 代码 。 下 一 节 描 述 这 方 
面 的 细节 。 

前 缀 和 后 毕 的 生成 

在 前 面 的 简单 的 核心 调度 的 例子 中 ， 生 成 前 级 和 后 缀 的 关键 信息 是 达到 计算 的 稳定 状态 所 
需 的 迭代 次 数 。 同 样 的 信息 在 这 些 例子 中 也 是 需要 的 ， 并 称 之 为 调度 的 迭代 的 范围 (range): 

range(s) = max(/[n]) +1 (10-11) 


按照 这 一 定义 ， 调 度 的 范围 是 对 应 于 原 循环 发 射 的 一 个 迭代 中 的 所 有 指令 所 需 的 迭代 次 数 。 
范围 是 使 循环 达到 稳定 状态 ( 注 满 流水 线 ) 所 需 执行 的 迭代 次 数 ， 以 及 稳定 状态 后 执行 
完 循环 ( 排 空 流水 线 ) 所 需 的 迭代 次 数 。 要 得 到 一 个 完整 的 核心 ( 带 有 稳定 状态 中 的 每 一 条 
指令 的 拷贝 ) FER Aranes) 个 不 同 远 代 的 指令 ， 包 括 目 前 刚刚 开始 执行 的 指令 。 因 此 如 
果 r=ran8ge(S)， 执 行 的 第 一 个 完整 迭代 是 第 "个 ， 则 前 绥 的 长 度 是 
(r- DEAS) 

有 了 这 一 信息 ， 可 以 如 下 生成 前 缀 : 首先 产生 核心 的 r -1 个 拷贝 ， 然 后 对 所 有 满足 1[n] =i 
<7r 一 1 的 指令 2， 将 其 在 迭代 1 到 和 迭代 ;中 的 拷贝 用 no-op 替 换 。 不 插 和 人 no-op， 前 组 就 不 能 被 有 
效 地 重 调度 (保证 是 最 优 的 )， 但 是 插入 了 no-op 以 后 ， 就 可 能 显著 地 压缩 前 级 。 在 那些 情况 
下 ， 用 表 调 度 算法 重新 调度 前 级 也 是 有 用 的 ， 可 以 减 小 的 前 级 的 长 度 。 

我 们 可 以 用 类 似 的 方法 得 到 后 绎 长度 的 界 。 一 旦 核心 的 最 后 一 次 完整 迭代 完成 (这 是 原 
来 代码 的 最 后 迭代 中 的 指令 开始 发 射 的 迭代 )， 它 就 可 以 在 r -1 次 迄 代 中 完成 。 然 而 ， 这 还 不 
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环 外 的 代码 的 相关 是 适合 的 。 例 如 ， 如 果 一 个 调度 的 最 后 一 条 指令 是 一 个 store ， 并 且 store 需 
要 五 个 周期 来 完成 ， 后 缕 代 码 必 须 包 含 S 个 额外 的 no-op 以 保证 store 得 以 完成 ， 后 面 的 load 操 作 

会 读 取 无 效 值 。 后 组 代码 所 需 的 额外 的 时 间 是 
A(S) = (max((U[n] - DL, (S) + S[n] + delay(n)) ~- rL (SY (10-12) 


这 里 的 上 标 “+” 在 第 3 章 中 定义 ， 表 示 取 表达 式 的 正 部 ， 如 果 表 达 式 的 值 大 于 零 ， 它 就 等 于 
表达 式 的 值 ， 否 则 就 等 于 0。 
因此 后 组 的 长 度 有 下 面 的 上 界 : 
(r —- DL,CS) + AG) 
跟前 组 的 情况 相同 ， 后 缀 的 长 度 可 以 通过 表 调 度 减 少 。 

这 样 ， 为 了 生成 后 缀 代码 ， 只 要 产生 核心 的 r- 1 个 乒 贝 ， 然 后 对 所 有 满足 1[ 四 =:<r- II 的 
Hon, KPI + 1 到 迭代 r - 1 中 的 拷贝 用 no-op 赫 换 。 

寄存 器 资源 

迄今 为 止 ， 尽管 我 们 在 讨论 软 流水 时 已 提 到 了 由 于 流水 的 影响 导致 寄存 器 需求 增 大 的 问 
题 ， 但 并 未 论 及 如 何 解 决 这 个 问题 。 自 然 可 以 说 推迟 到 现在 才 讨 论 这 个 问题 ， 是 因为 我 们 可 
以 提出 一 种 通用 的 软 流水 算法 来 漂亮 地 解决 这 个 问题 。 不 过 实际 上 没有 这 样 的 漂亮 的 解决 方 
案 。 当 流水 线 调 度 所 需要 的 寄存 器 的 个 数 超过 机 器 中 寄存 器 的 数目 时 ， 就 必然 导致 寄存 器 溢 
出 或 者 代码 重新 调度 。 在 解决 这 个 问题 的 过 程 中 提出 了 许多 启发 式 技术 ,但 是 完全 令 人 满意 
的 解决 方案 还 没有 找到 。 假 定 寄存 器 溢出 很 少 发 生 (这 似乎 是 一 个 合理 的 假定 ) ， 当 一 个 最 优 
的 调度 没有 足够 的 寄存 器 可 用 时 ， 插 入 内 存 游 出 指令 并 重新 调度 似乎 是 合理 的 。 

然而 ,缺乏 寄 存 器 并 不 是 软 流 水 面临 的 唯一 问题 。 即 使 有 足够 的 寄存 器 ， 在 使 用 现 有 的 
寄存 器 时 也 会 发 生 寄存 器 名 字 冲 突 。 这 种 冲突 是 由 于 试图 使 用 同一 寄存 器 存放 不 同 的 原来 迭 
代 中 活跃 区 域 重 登 的 两 个 不 同 的 值 所 造成 的 。 然 而 正如 我 们 在 第 8 章 中 所 见 的 ， 这 类 名 字 冲 突 
问题 通常 能 通过 循环 展开 解决 。 

控制 流 

迄今 为 止 ， 我 们 只 讨论 了 内 部 设 有 控制 流 的 循环 的 软 流水 。 这 样 的 循环 的 执行 过 程 是 规 
则 的 、 可 预见 的 ， 我 们 能 够 比较 有 把 握 地 通过 调度 得 到 改进 的 结果 。 控 制 流 在 两 个 方面 使 软 
流水 复杂 化 : 

(1) 因为 存在 不 同调 度 长 度 的 控制 流 路 径 ， 就 不 可 能 再 假定 每 一 次 迭代 所 需要 的 周期 数 
都 相同 。 

(2) 在 分 支 条 件 控制 下 的 条 件 执行 指令 必须 在 控制 流 汇合 在 一 起 之 前 发 出 。 而 来 自 不 同 
迄 代 的 指令 不 可 以 随意 地 混合 在 一 起 。 如 果 不 能 在 控制 流 汇合 前 发 出 一 条 有 控制 条 件 的 指令 ， 
则 必须 实现 保存 控制 判定 的 机 制 ， 而 这 样 做 既 不 容易 也 不 高 效 。 

因为 带 有 控制 流 的 循环 难以 预测 ， 移 动 指 令 的 空间 也 较 小 ， 结 果 是 在 软 流水 中 处 理 控制 
流 变 得 很 困难 。 一 种 选择 是 在 循环 体 中 使 用 路 径 调 度 ; 这 样 做 基本 上 是 把 赌注 押 在 最 有 可 能 
的 控制 流 路 径 上 。 

第 二 种 方法 常用 在 对 预测 执行 提供 硬件 支持 的 机 器 上 。 如 果 使 用 7.2 节 中 讲 到 的 if 转 换 ， 
我 们 可 以 通过 把 分 支 之 下 的 指令 转换 为 预测 的 形式 ， 从 而 消除 所 有 的 前 向 分 支 指 令 。 为 了 得 
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到 最 好 的 效果 ，7.2 节 中 的 算法 需要 修改 ， 使 得 计算 条 件 的 值 的 指令 数 最 少 。 但 是 ， 这 样 的 修 
改 是 容易 的 。 

对 有 预测 硬件 的 机 器 ， 另 一 种 策略 如 7.3 节 所 述 ， 先 建立 控制 依赖 ， 然 后 利用 控制 依赖 进 
行 调 度 ， 最 后 利用 图 7-25 和 7-26 中 的 代码 生成 算法 来 生成 最 终 的 代码 ， 对 每 一 条 指令 的 预测 ， 
是 通过 对 控制 它 的 最 直接 条 件 求 值 产生 的 布尔 变量 。 目 前 ， 至 少 有 一 个 英特尔 IA-64 体 系 结构 
的 代码 生成 技术 的 研究 组 正在 使 用 这 种 方法 [107]。 

最 后 一 种 在 软 流 水 中 加 入 控制 流 的 方法 由 Lam[194] 提 出 ， 该 方法 首先 使 用 非 流 水 方法 调 
度 控制 流 区 域 ， 然 后 在 流水 处 理 时 将 这 些 区 域 
当 作 黑 盒子 对 待 。 换 旬 话 说 ， 控 制 流 区 域 被 当 一 
作 一 条 宏 指 令 ， 执 行 这 条 指令 需要 在 若干 周期 
中 占用 所 有 的 资源 。 在 控制 流 区 域外 部 的 指令 
可 以 使 用 软件 流水 线 调 度 到 这 个 区 域 之 前 或 之 
后 执行 。 这 种 策略 在 图 10-10 中 说 明 。 

控制 流 区 域 中 的 每 条 路 径 被 独立 地 调度 ， = 
然后 整个 控制 流 区 域 被 归 约 为 一 条 超级 指令 ， 
占用 周期 数 等 于 最 长 路 径 长 度 的 全 部 资源 。 这 
个 步骤 完成 后 ， 控 制 流 前 区 域 、 超 级 指令 和 控 = 
制 流 后 区 域 可 使 用 标准 软 流水 方法 进行 调度 。 

对 这 种 策略 的 一 种 改进 是 允许 这 种 超级 指 广 控制 流 后 区 域 
令 在 输出 不 同 结果 时 有 不 同 的 延迟 。 也 就 是 说 ， 
这 种 超级 指令 仍然 被 当 作 一 条 单一 输出 的 指令 
发 射 ， 但 其 输出 在 不 同 的 时 间 产 生 ， 并 且 在 该 
超级 指令 执行 完 之 前 就 释放 一 些 资源 。 这 样 将 
使 得 控制 流 后 区 域 中 的 部 分 指令 能 够 被 调度 到 图 10-10 有 控制 流 的 软 流水 
控制 流 区 域 的 所 有 路 径 上 ， 从 而 缩短 核心 长 度 。 

可 以 用 类 似 的 策略 来 缩短 控制 流 前 区 域 。 假 设 在 控制 流 前 区 域 的 指令 i 和 控制 流 区 域 的 指 
令 记 之 间 有 延迟 为 4 的 依赖 ， 我 们 不 需要 让 i 在 超级 指令 前 d 个 周期 发 射 。 如 果 is 已 被 调度 到 超 
级 指令 的 第 k 个 周期 执行 ， 那 么 可 以 在 超级 指令 前 d 一 k++1 个 周期 发 射 。 如 果 d 一 上 + 1 是 负数 ， 
当空 资源 在 两 条 路 径 上 都 可 用 时 ， 则 就 可 以 与 超级 指令 重合。 


10.3 向 量 部 件 调 度 

一 般 说 来 ， 向 量 指令 的 调度 比 指令 部 件 的 调度 简单 得 多 。 首 先 ， 一 条 向 量 指令 ， 按 其 定 
义 涉及 到 许多 标量 指令 的 执行 ， 所 有 这 些 指令 都 是 以 最 高 效 的 流水 方式 执行 的 。 因 而 仅 发 射 
一 条 向 量 指令 就 已 经 表示 显著 的 加 速 和 有 效 的 重 排 。 其 次 ， 向 量 指令 通常 会 执行 很 长 时 间 以 
致 于 不 可 能 让 其 他 所 有 的 执行 部 件 都 保持 繁忙 。 向 量 指令 像 一 把 伞 ， 它 的 代价 隐藏 其 他 所 有 
指令 的 代价 。 

然而 ， 对 于 大 多 数 的 向 量 处 理 器 而 言 ， 指 令 调 度 仍 有 用 武之 地 。 向 量 处 理 器 通常 支持 硬 
件 中 的 操作 链接 ; 对 这 样 的 处 理 器 花费 少量 时 间 对 指令 重新 排序 能 显著 缩短 程序 的 执行 时 间 。 
同样 地 ， 向 量 处 理 器 经 常 被 用 作 内 存 映 射 的 协 处 理 器 。 这 样 的 协 处 理 器 通常 能 通过 仔细 调度 
同步 指令 而 提高 速度 。 本 节 将 简要 地 讨论 这 些 调度 机 会 的 几 个 重要 方面 。 


一 控制 流 前 区 域 


三 ”控制 流 区 域 
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10.3.1 链接 

鉴于 一 个 典型 的 向 量 操作 记 需 的 执行 时 间 较 长 ， 加 之 向 量 部 件 通常 拥有 多 个 不 同 的 执行 
部 件 这 一 事实 ， 多 向 量 部 件 的 链接 就 成 了 常见 的 优化 方法 。 链 接 是 一 种 硬件 机 制 ， 它 可 以 用 
来 识别 一 个 向 量 操作 的 输出 在 什么 时 候 可 以 作为 另 一 个 不 同 的 向 量 操 作 的 输入 使 用 。 在 这 种 
情况 下 ， 链 接 硬 件 会 将 第 一 个 操作 的 输出 结果 直接 传递 到 第 二 个 操作 的 执行 部 件 ， 从 而 实现 
两 条 指令 的 重 琶 操作 。 举 一 个 简单 的 例子 : 

vioad tl, a 

yload t2, b 

vadd t3, tl, t2 

vstore t3, c 

这 段 指令 从 内 存 中 取 两 个 向 量 ， 把 它们 相 加 ， 并 把 结果 存 回 内 存 。 假 定 有 两 个 从 存储 器 
读 出 的 流水 线 a 和 b (正如 在 load 指 令 中 指出 的 )， 且 两 个 操作 是 独立 的 。 如 果 简 单 地 假设 每 一 
条 向 量 指令 要 花费 64 个 周期 ， 且 这 两 条 load 指 令 同 时 开始 进行 操作 ， 那 么 ， 这 段 代 码 的 非 链 
接 方式 执行 就 需要 192 个 周期 : 其 中 64 个 用 来 装载 两 个 向 量 寄存 器 ，64 个 用 来 做 加 法 运算 ， 
余下 的 64 个 用 来 保存 结果 。 而 链接 方式 的 执行 只 需要 花费 66 个 周期 ， 速 度 几 平 是 非 链 接 方式 
的 3 倍 。 在 链接 方式 下 ， 第 一 个 周期 开始 向 量 加 法 运算 (假定 在 第 一 个 周期 时 ， 向 量 的 第 一 个 
元 素 已 经 取 到 )， 它 的 第 2 个 周期 开始 保存 向 量 (假定 加 法 运算 在 第 一 个 周期 已 经 完成 )，load ， 
add 和 store 都 以 流水 方式 重 登 执行 。 

大 多 数 支 持 链接 操作 的 向 量 部 件 都 有 完整 的 记分 板 (记录 向 量 寄存 器 和 操作 部 件 情况 )， 
识别 链接 机 会 的 任务 基本 上 就 由 硬件 来 完成 (就 像 它 识别 超标 量 一 样 )。 然 而 ， 编 译 器 必须 提 
供 某 种 支持 。 在 最 坏 的 情况 下 ， 编 译 器 必须 在 指令 操作 码 中 设置 特殊 控制 位 ， 通 知 硬件 对 两 
个 操作 进行 链接 。 然 而 ， 通 常情 况 下 ， 编 译 器 只 需要 把 两 个 操作 尽 可 能 地 移 到 一 起 以 便 记分 
板 识别 链接 机 会 。 

如 果 只 是 要 求 将 指令 移 近 ， 那 么 产生 链接 机 会 只 需 对 指令 调度 作 一 个 很 小 的 修改 ， 即 在 
指令 调度 中 提升 检索 和 识别 满足 链接 限制 的 模式 的 能 力 。 既 然 这 里 涉及 的 是 向 量 而 非 标 量 ， 
那么 相关 冒险 检测 显然 需要 全 面 的 依赖 分 析 。 

初 看 起 来 ， 对 链接 的 最 优 使 用 可 能 是 容易 的 。 在 大 多 数 实 际 情况 中 ， 确 实 最 优 的 链接 可 
以 从 简单 的 指令 调度 中 得 出 。 但 也 并 不 总 是 这 样 ， 下 面 的 例子 可 以 说 明 这 一 点 : 

il vioad a, x (i) 

i2 vioad b, y (i) 

i3 vadd ti, a, b 

i4 vioad c, z (i) 

i5 vmul t2, ¢, tl 


i6 vmul t3, a, b 
i7 vadd t4, c, t3 


假定 这 段 代码 是 在 有 两 条 取 数 流水 线 、 一 条 加 法 流水 线 和 一 条 乘法 流水 线 的 向 量 部 件 上 
执行 ,第 一 个 加 法 运算 将 和 load 进 行 链接 操作 , 第 一 个 乘法 运算 将 和 第 三 个 load 进 行 链接 操作 ， 
最 后 一 个 加 法 运算 将 和 最 后 一 个 乘法 运算 进行 链接 操作 。 整 个 计算 需要 三 个 完整 的 向 量 操作 。 
这 是 相当 好 的 ， 但 是 重新 排列 代码 有 可 能 会 做 得 更 好 : 


vioad a, x (i) 
vioad b, y (i) 
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vadd tl, a, b 
vmul 3, a, b 
vload c, z (i) 
vmul t2, c, tl 
vadd t4, c, t3 


在 这 个 版 本 中 ， 完 整 的 向 量 操作 的 个 数 已 经 减少 到 了 两 个 。 技 巧 是 把 所 有 依靠 相同 操作 结果 
作为 输入 的 操作 集中 到 一 起 。 

链接 问题 可 以 通过 使 用 8.6.4 布 中 介绍 的 加 权 合并 算法 的 变形 得 以 解决 。Ding 和 Kennedy 
[104] 介 绍 了 这 个 算法 的 一 个 考虑 资源 约束 的 版 本 。 这 一 变形 使 我 们 可 以 在 合并 过 程 的 每 一 步 
判定 合并 是 否 会 产生 一 个 需要 过 多 资源 的 组 。 在 合并 的 情况 下 ， 我 们 总 是 想 把 尽 可 能 多 的 能 
够 链接 的 向 量 指令 集中 到 一 起 ， 只 要 我 们 有 足够 的 资源 以 链接 方式 同时 执行 这 些 操作 。 例 如 ， 
如 果 一 台 机 器 有 两 条 取 数 流水 线 、 一 条 存 数 流水 线 、 两 个 加 法 部 件 和 一 个 乘法 部 件 ， 我 们 就 ”[538 
不 会 试图 链接 比 两 个 取 数 、 两 个 加 法 、 一 个 乘法 和 一 个 存 数 更 多 的 东西 。 

8.6.3 节 的 合并 算法 和 考虑 资源 限制 的 合并 算法 所 共有 的 一 个 有 用 的 特性 是 ， 在 合并 之 后 ， 
重新 动态 地 计算 权 值 。 这 意味 着 如 果 选 择 一 个 加 法 运算 和 一 个 乘法 运算 进行 链接 操作 的 话 ， 
则 对 这 两 个 指令 进行 合并 后 ， 另 一 个 同时 输入 到 这 个 加 法 和 乘法 运算 的 取 数 操作 将 被 赋予 一 
个 更 高 的 权 值 。 

利用 这 种 策略 ， 这 个 算法 的 步骤 如 下 : 

(1) 为 将 要 进行 链接 操作 的 直线 代码 构造 依赖 图 。 

(2) 用 代表 边 的 向 量 的 长 度 作为 边 的 权 值 。 如 果 不 能 确定 向 量 长 度 ， 就 使 用 整个 向 量 寄 
存 器 的 长 度 。 

(3) 用 限制 加 权 合 并 算法 来 确定 最 大 的 合并 组 。 在 选择 下 一 条 合并 边 的 每 一 步 ， 如 果 有 
几 条 边 由 于 最 高 权 值 而 绑 在 一 起 ， 就 选择 最 近 加 入 到 合并 组 的 一 条 边 ， 其 中 偏向 于 选择 源 点 
和 汇 点 在 原来 的 顺序 中 最 早 的 那 条 边 。 

如 果 我 们 对 本 节 开 始 的 那个 例子 使 用 此 算法 的 话 ， 就 从 建立 如 图 10-11 所 示 的 依赖 图 开始 ， 
图 中 所 有 的 边 的 权 值 相等 。 然 后 开始 合并 。 


vload a,x(i) 2( vioad b.y(i) 


ae 
一 一 


vadd tl,a,b 
TI 


vmul t4,c,t3 


图 10-11 链接 例子 的 依赖 图 
这 种 算法 会 先 合 并 指令 1 和 指令 3。 然 后 再 将 指令 2 和 前 两 条 指令 合并 起 来 得 到 图 10-12 所 


















vioad c,z(i) 













vioad a,x(i) 
vload b,y(i) 
vadd tl,a,b 















vload c,z(1) 


权 值 加 倍 的 边 





vmul t3,a,b 
vmul t4,c,t3 


图 10-12 部 分 链接 后 的 依赖 图 


注意 由 于 指令 6 有 两 个 输入 来 自 包 含 指 令 1、2、3 的 合并 组 ， 故 该 组 与 指令 6 之 间 边 的 权 值 
在 合并 后 重新 计算 , 值 增加 一 倍 。 这 样 就 会 跳 过 指令 5， 选 择 将 下 一 条 指令 与 第 一 组 结合 起 来 。 
从 而 用 完了 该 组 所 有 的 资源 。 另 外 三 条 指令 将 被 合并 到 第 二 组 中 ， 产 生 所 需 的 结果 。 


10.3.2 协 处 理 器 

在 许多 特殊 的 应 用 中 ， 通 常 “ 附 加 ”一 个 协 处 理 器 来 加 快 应 用 代码 特殊 部 分 的 执行 速度 。 
例如 ， 在 大 部 分 个 人 电脑 中 ， 图 形 协 处 理 器 分 担 主 处 理 器 的 绘制 和 其 他 的 基本 图 形 计算 ， 加 
快 系统 的 运行 速度 。 在 浮 点 和 整数 处 理 器 被 集成 到 一 个 芯片 上 之 前 ， 通 常会 将 向 量 和 浮 点 协 
处 理 器 连接 到 标准 机 器 上 。 目 前 ,现场 可 编程 门 阵列 (FPGA) 技术 使 动态 构建 专门 针对 某 些 
计算 的 核心 部 分 的 协 处 理 器 成 为 可 能 。 

在 一 定 程度 上 ， 调 度 协 处 理 器 类 似 于 调度 VLIW 或 者 超标 量 体 系 结构 。 协 处 理 器 只 是 另 一 
个 功能 部 件 。 比 起 那些 细 粒 度 机 器 上 的 典型 的 加 法 器 或 者 乘法 器 部 件 ， 它 具有 更 广泛 的 能 力 。 
一 般 来 说 ， 协 处 理 器 的 功能 是 明确 定义 的 ， 所 以 就 很 容易 判断 哪些 代码 应 该 转移 到 协 处 理 器 
执行 、 哪 些 应 该 留 在 主 处 理 器 执行 ; 拿 图 形 协 处 理 器 为 例 ， 它 一 般 是 用 来 做 图 形 操作 的 。 然 
而 ， 有 一 点 细微 的 差别 使 得 协 处 理 器 的 调度 变 得 复杂 。 协 处 理 器 一 般 都 是 连接 到 系统 总 线 上 ， 
主 处 理 器 通常 通过 “内 存 映射 (memory-mapped)” 的 接口 调用 它们 。 也 就 是 说 ， 主 处 理 器 通 
过 把 一 些 特殊 值 存储 到 某 些 特殊 的 内 存 位 置 ， 来 通知 协 处 理 器 所 需 完 成 的 工作 ; 协 处 理 器 则 
通过 系统 总 线 读 取 这 些 值 ， 以 决定 它 需 要 完成 的 工作 。 协 处 理 器 只 能 在 系统 总 线 上 访问 主 存 
储 器 并 获取 值 ， 但 是 它 能 从 主 处 理 器 得 到 的 唯一 的 内 部 信息 也 就 是 主 处 理 器 发 送 给 它 的 。 

因为 高 速 缓存 被 连接 到 中 央 处 理 器 ， 协 处 理 器 没有 办 法 看 到 它们 。 同 样 地 ， 高 速 缓 存 通 
常 也 不 知道 协 处 理 器 的 存在 。 结 果 ， 当 协 处 理 器 存储 一 个 计算 的 值 到 内 存 时 ， 更 新 后 的 值 可 
能 不 会 立即 反映 到 中 央 处 理 器 的 高 速 缓存 上 。 同 样 地 ， 中 央 处 理 器 保存 的 值 也 可 能 不 会 立即 
出 现在 内 存 中 ， 从 而 导致 协 处 理 器 读 取 一 个 无 效 的 值 。 解 决 这 个 问题 的 一 种 方法 是 提供 一 套 
特殊 的 内 存 同步 指令 ， 它 可 以 保证 内 存 与 高 速 缓存 一 致 。 这 样 的 指令 暂停 中 央 处 理 器 ， 直 到 
它 发 出 的 所 有 的 写 操作 都 已 写 人 内 存 。 另 一 种 方法 则 将 高 速 缓存 置 为 无 效 ， 这 样 来 自 内 存 的 
新 值 就 能 被 读 取 。 不 易 发 现 的 是 ， 考 虑 到 协 处 理 器 可 能 会 在 主 处 理 器 发 出 相关 写 操作 之 前 发 
出 读 操作 ， 但 写 操 作 却 首先 完成 ， 这 种 情况 还 需要 一 条 指令 来 强制 暂停 直到 读 操作 在 所 有 的 
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处 理 器 上 都 完成 为 止 。 所 有 这 些 指令 都 是 代价 很 高 的 ， 因 此 将 它们 的 使 用 减 至 最 少 对 于 执行 
速度 是 至 关 重 要 的 。 

可 以 利用 数据 依赖 来 确定 什么 地 方 需要 等 待 指令 。 当 数据 依赖 的 源 点 在 一 个 处 理 器 上 被 
执行 而 汇 点 在 另 一 个 处 理 器 上 被 执行 时 ， 两 者 之 间 就 会 需要 某 种 形式 的 内 存 同步 。 如 果 是 真 
依赖 ， 主 处 理 器 必须 保证 在 汇 点 处 理 器 读 内 存 之 前 ， 源 点 处 理 器 上 的 所 有 存储 操作 已 经 完成 。 
如 果 依赖 是 反 依赖 ， 主 处 理 器 必须 保证 汇 点 处 理 器 在 写 操作 发 射 之 前 ， 源 点 处 理 器 上 的 所 有 
读 操作 已 经 完成 。 如 果 是 输出 依赖 ， 中 央 处 理 器 必须 保证 第 二 个 保存 操作 在 第 一 个 之 后 完成 。 
由 于 这 些 等 待 指令 是 昂贵 的 ， 编 译 器 必须 最 大 限度 地 减少 应 用 在 指令 操作 中 的 等 待 指令 的 数 
量 。 操 作 的 位 置 也 是 重要 的 ， 因 为 许多 体系 结构 保证 存 数 操作 在 给 定 的 若干 时 钟 周期 内 一定 
能 写 和 内存。 这 样 ， 如 果 源 点 和 汇 点 能 够 用 足够 的 其 他 指令 分 开 ， 内 存 访问 的 正确 性 就 可 以 
无 须 借助 等 待 指令 而 得 以 保证 。 

指令 的 位 置 之 所 以 重要 的 第 二 个 原因 是 ， 它 能 减少 必要 的 等 待 指令 的 数量 。 考 虑 图 10-13 
中 的 例子 。 第 一 个 依赖 能 被 在 区 域 1 或 区 域 2 中 的 等 待 指令 覆 
2, 第 二 个 依赖 能 被 在 区 域 2 或 区 域 3 中 等 待 指令 覆盖 。 简 单 的 。 “+ 和 
作法 会 导致 在 区 域 1 和 区 域 3 中 都 加 入 等 待 指令 ; 更 巧妙 的 作法 Store BCD 


.. region 2 








是 只 在 区 域 2 中 插入 等 待 指令 (恰好 在 A(I1) 的 load 之 前 )。 load coprocessor A(I) 
在 一 个 基本 块 之 内 ,把 等 待 指令 减少 到 最 低 限度 是 简单 的 ， load coprocessor BOI) 
而 且 可 以 在 一 遍 中 完成 。 从 块 的 起 点 开始 ， 依 赖 边 的 源 点 标注 


成 被 检查 的 指令 。 当 遇 到 一 条 未 黎 盖 的 边 的 汇 点 时 ， 就 括 和 一。 。 图 10.13 最 小 化 生成 的 等 和 
条 等 待 指令 ， 而 且 因为 该 等 待 指令 会 保护 所 有 的 迄今 为 止 其 源 

点 已 遇 到 过 的 边 ， 这 些 边 将 被 标记 为 被 覆盖 的 。 因 为 所 有 边 的 源 点 和 汇 点 都 会 被 遇 到 ， 从 而 
导致 所 有 的 边 被 覆盖 ， 故 这 种 算法 可 以 保护 基本 块 内 的 所 有 的 边 安全 。 

要 弄 明 白 这 种 算法 怎样 产生 最 少 的 等 待 指令 并 不 困难 。 概 要 地 讲 它 的 证 明 方法 就 是 ， 我 
们 可 以 试图 移 去 一 条 等 待 指令 ， 并 重新 安排 其 他 等 待 指令 来 覆盖 已 暴露 的 边 。 已 安排 好 的 等 
待 指令 的 任何 移动 必然 会 导致 男 一 条 边 变 为 不 被 赣 盖 。 虽 然 这 一 算法 产生 的 等 待 指令 的 个 数 
最 少 ， 但 是 放置 等 待 指令 的 方法 不 是 唯一 的 ， 通 常会 有 许多 种 方法 。 例 如 ， 一 种 对 称 的 解决 
方案 是 从 块 的 末端 开始 ， 向 上 遍历 ， 当 磁 到 边 的 暴露 的 源 点 时 就 插入 等 待 指令 。 向 下 遍历 的 
优点 是 使 得 有 问题 的 访 存 操作 和 它 的 等 待 指令 之 间 的 时 间 间隔 最 大 ， 从 而 碱 少 在 那些 对 存 数 
操作 有 时 间 限 制 的 体系 结构 中 需要 用 到 等 待 指令 的 可 能 性 。 

尽管 在 没有 控制 流 的 情况 下 我 们 可 以 用 一 种 相当 简单 的 算法 产生 最 少数 目的 等 待 指令 ， 
而 在 有 控制 流 的 情况 下 使 等 竺 的 数目 达到 最 小 是 NP 完全 的 。 因 此 编译 器 必须 使 用 启发 式 的 算 
法 产生 好 的 解决 方案 。 

在 并 行 处 理 器 中 ， 也 有 处 理 器 之 间 在 访 存 上 的 同步 问题 ， 也 同 使 用 协 处 理 器 一 样 一 对称 
的 、 共 享 内 存 的 多 处 理 器 可 被 视 为 等 价 的 协 处 理 器 的 集合 。 然 而 在 这 样 的 系统 中 编译 器 的 设 
计 者 通常 不 关心 如 何 对 访 存 操作 进行 显 式 调度 。 由 于 硬件 设计 者 认识 到 这 样 的 系统 应 当 支持 
多 处 理 器 (他 们 并 不 见得 总 是 了 解 协 处 理 器 )， 通 常会 在 系统 总 线 中 提供 支持 ， 以 避免 许多 类 
似 这 样 的 问题 发 生 。 此 外 ， 在 进入 和 退出 并 行 区 域 的 时 候 通常 会 有 顶 障 (barrier)， 这 非常 清 
楚 地 提示 我 们 可 以 在 这 里 插入 同步 操作 。 不 过 ， 已 经 提出 了 一 些 有 关 在 并 行 循环 中 把 所 需 的 
同步 操作 降低 至 最 小 限度 的 策略 [62，214]。 
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10.4 小 结 

在 本 章 中 我 们 讨论 了 与 调度 有 关 的 两 个 问题 ， 这 两 个 问题 可 以 借助 依赖 分 析 的 方法 加 以 
解决 。 

(1) 单 处 理 器 上 的 指令 调度 涉及 最 大 限度 地 减少 在 YLIW 处 理 器 或 超标 量 处 理 器 上 执行 一 
系列 特定 的 操作 所 需 的 周期 数 。 典 型 的 作法 是 建立 指令 间 的 依赖 图 ， 并 将 调度 算法 用 到 该 图 
上 。 在 这 一 章 介 绍 了 三 种 不 同 的 调度 方法 。 表 调度 试图 为 的 一 块 直线 代码 找到 最 佳 的 调度 。 
踪迹 调度 扩展 表 调 度 ， 使 之 能 够 处 理 带 有 控制 流 的 代码 ， 访 方法 对 称 为 踪迹 的 单一 控制 流 路 
径 进行 调度 ， 每 次 调度 一 条 ， 并 插入 代码 以 解决 接口 问题 。 核 心 调度 或 软 流水 通过 减少 执行 
循环 体 的 计算 核心 的 周期 数 而 把 循环 体 的 执行 时 间 降 低 到 最 小 限度 ， 该 核心 在 循环 达到 稳 态 
后 ,执行 循环 体 中 的 操作 。 

(2) 向 量 指令 调度 试图 把 由 于 问 量 启动 时 间 引 起 的 延迟 的 影响 降低 到 最 小 限度 ， 方 法 是 
尽 可 能 地 重 倒 向 量 指令 的 执行 。 这 一 章 介绍 一 种 向 量 链接 的 算法 ， 它 使 用 加 权 合并 算法 的 一 
个 变形 获得 最 大 的 重 登 。 

所 有 这 些 问题 ， 即 使 在 非常 简单 的 假设 条 件 下 ， 也 是 NP 完全 的 ， 因 此 本 章 所 讨论 的 算法 
都 是 启发 式 的 。 


10.5 实例 研究 

由 于 PFC 主 要 是 一 种 源 - 源 变换 系统 ， 不 作 任 何 指令 调度 。 另 一 方面 ，Ardent Titan 编 译 器 
则 为 RISC 处 理 器 和 相连 的 向 量 部 件 生成 代码 。 

对 最 初 的 Titan 体 系 结构 来 说 ， 最 大 的 挑战 之 一 就 在 于 对 向 量 和 标量 的 浮 点 操作 。 因 为 在 
Titan 2000 中 的 浮 点 部 件 是 内 存 映像 的 异步 协 处 理 器 ， 它 也 面 对 着 10.3.2 节 中 列 出 的 那些 挑战 。 
编译 器 为 了 在 向 量 部 件 和 标量 部 件 之 间 为 向 量 和 标量 浮 点 指令 同步 内 存 访问 ， 负 责 插 入 等 待 
指令 。 编 译 器 还 必须 正确 同步 同一 浮 点 部 件 上 取 数 和 存 数 操作 的 内 存 访 问 。 插 入 等 待 指令 的 
算法 基本 上 就 是 这 章 中 所 讲 的 那些 算法 。 

最 初 决定 采用 在 向 量 部 件 中 执行 标量 浮 点 操作 的 方法 并 不 容易 ， 受 到 多 方面 因素 的 支配 ， 
其 中 大 部 分 涉及 到 硬件 设计 。 在 作出 设计 决定 后 ， 浮 点 部 件 和 标量 部 件 之 间 的 同步 就 简化 为 
只 需 考 虑 向 量 指令 的 情形 ， 因 为 (假定 ) 作为 浮 点 数 访问 的 数据 不 会 作为 整数 访问 。 涉 及 到 
在 循环 外 的 标量 浮 点 取 数 和 存 数 操作 的 内 存 同 步 被 认为 极 少 发 生 ， 所 以 不 会 成 为 问题 。 

在 协 处 理 器 上 执行 所 有 的 浮 点 操作 这 一 决定 在 多 方面 取得 了 成 功 。 在 循环 内 部 ， 编 译 器 
清楚 地 了 解 控 制 流 和 数据 流 ， 很 明显 这 一 方法 取得 了 成 功 。 表 10-1 显 示 Titan 编 译 器 在 
Livermore 循 环 上 取得 的 结果 ， 这 些 混 有 标量 和 向 量 计算 的 循环 代表 Livermore 国 家 实验 室 中 典 
型 的 计算 的 负载 。 在 倒数 第 2 列 中 是 这 些 向 量 核心 ; 在 Titan 编 译 器 上 ， 向 量化 获得 了 显著 的 加 
速 比 。 

然而 ， 表 10-1 也 试图 显示 即使 是 标量 核心 也 能 在 Titan 系 统 上 得 到 了 显著 的 加 速 比 。Titan 
编译 器 有 一 个 选项 支持 在 标量 优化 中 调用 依赖 分 析 ， 但 不 作 向 量 代码 生成 。 标 有 “0O1 
Megaflops” #1 “O1 with Dependence” 的 列 显 示 对 每 一 个 核心 的 标量 优化 (有 依赖 分 析 及 设 
有 依赖 分 析 ) 所 得 到 的 性 能 。 当 依赖 分 析 关 闭 时 ， 主 要 的 标量 优化 就 是 强度 消减 和 协 处 理 器 
指令 调度 ， 如 10.3.2 节 中 的 介绍 过 。 当 没有 依赖 信息 时 ， 则 只 对 标量 的 取 数 和 存 数 把 等 待 指 令 
降 到 最 低 限 度 的 优化 。 当 有 依赖 信息 时 ， 这 种 优化 方法 就 可 扩展 到 数组 变量 。 此 外 ， 编 译 器 
可 以 使 用 8.3 节 中 介绍 的 标量 替换 技术 把 大 部 分 内 存 访问 提升 为 寄存 器 的 读 写 ， 大 量 减 少 内 存 
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访问 需要 的 等 待 指令 数 。 结 果 ， 所 有 的 整数 和 浮 点 数 部 件 都 能 全 速 异步 运行 ， 在 无 法 向 量化 
的 核心 中 产生 接近 向 量化 的 速度 。 
表 10-1 Titan 编 译 器 利用 依赖 提高 标量 性 能 





核心 O01 有 依赖 OI 无 依赖 改进 可 向 量 关键 
(megaflops ) 让 分 比 化 吗 ? 优化 

11 0.4514 1.3558 200.1 No SR, IS 

12 0.4397 1.2560 185.6 Yes IS 

5 0.7301 1.9633 168.9 No SR, IS 

10 0.5136 1.3211 157.2 Yes IS 

21 0.6787 1.6991 150.3 Yes STR, IS 

6 0.6894 1.7203 149.5 Yes SR, IS 

1 1.2589 2.1979 74.5 Yes IS 

13 0.2954 0.4237 43.4 Yes STR, IS 

23 1.8059 2.4598 36.2 No SR, IS 

2 1.1035 1.4349 30.0 Yes IS 

9 1.5206 1.7720 16.5 Yes IS 

20 1.6663 1.8809 12.9 No SR, 1S 

7 2.3657 2.6227 10.9 Yes IS 

19 1.6792 1.9030 7.4 No SR 

14 0.4565 0.4775 4.6 Yes IS 

15 0.7601 0.7908 4.0 Yes LI 

18 1.8216 1.8262 0.3 Yes 

3 1.9713 1.9684 -0.1 Yes 

24 0.3825 0.3828 -0.1 Yes 

17 0.9663 0.9644 -0.1 No 

22 0.4924 0.4914 -0.2 ` Yes 

4 1.8936 1.8873 -0.3 Yes 

16 0.8522 0.8479 -0.5 No 

8 2.0733 1.9089 -7.9 Yes 

均值 1.1195 1.4773 32.0 

几何 平均 0.9346 1.2959 38.7 

调和 平均 0.7724 1.0786 39.6 

中 值 0.9093 1.7097 88.0 





对 因 使 用 依赖 信息 而 取得 显著 改进 的 核心 而 言 ， 最 后 一 列表 示 对 这 种 改进 起 主要 作用 的 
PUCK, KAD “SR” (CR RHR, “IS” (CASI, “STR? ARERR, “LI 
代表 循环 不 变量 识别 一 一 一 种 可 以 消除 循环 中 在 每 次 迭代 中 执行 相间 计算 并 把 结果 存储 到 相 
同 内 存 地 址 的 语句 (使 用 这 种 优化 方法 的 概率 相当 高 )。 . 

尽管 有 这 些 结果 ， 同 步 问题 仍然 是 Titan 系 统 中 的 一 个 大 问题 。 认 为 数据 只 会 以 整数 和 浮 
点 数 的 形式 被 访问 的 想法 是 错误 的 一 特别 是 数学 库 中 ， 浮 点 数 一 般 都 被 分 解 为 指数 和 尾数 。 
同时 ， 在 循环 外 的 标量 浮 点 数 读 写 之 间 的 同步 化 对 于 许多 代码 也 是 一 个 大 问题 。 如 有 果 没 有 循 
环 的 依赖 分 析 ， 代 码 生 成 器 基本 上 只 能 假定 所 有 浮 点 数 访问 都 是 有 依赖 的 ， 因 此 而 导致 插 人 
的 等 待 指 令 会 极 大 地 降低 程序 性 能 。 另 一 个 在 一 开始 并 没有 引起 足够 重视 的 问题 是 对 遗漏 必 
要 的 等 待 指令 的 程序 进行 调试 所 需要 的 时 间 和 和 人力。 这 样 的 程序 的 行为 很 大 程度 上 依赖 于 取 
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数 操作 和 内 存 的 情况 ， 其 运行 十 之 八 九 都 是 正确 的 。 要 正确 的 插入 等 待 指令 需要 开发 大 量 工 
具 以 支持 调试 ， 找 出 在 已 编译 好 的 程序 中 遗漏 的 等 待 指令 。 

由 于 上 面 提 到 的 这 些 问 题 以 及 硬件 设计 的 改变 ， 第 二 代 Titan 系 统 结构 一 一 Titan 3000 在 整 
数 部 件 中 进行 标量 浮 点 化 ， 因 而 只 需要 用 等 待 指令 来 对 向 量 指令 作 同 步 。 结 果 得 到 了 一 个 效 
率 极 高 的 编译 器 和 硬件 组 成 的 系统 ， 正 如 表 10-1 中 的 Livermore 循 环 的 测试 结果 所 表明 的 。 既 
然 只 有 向 量 循环 需要 等 待 指 令 ， 其 中 编译 器 完全 了 解 循环 中 控制 流 和 数据 流 ， 所 以 这 些 循 环 
核心 的 测试 结果 都 不 错 。 

Titan 编 译 器 为 调度 指令 实现 了 另外 两 个 有 趣 的 优化 。 一 个 是 Titan 内 部 的 内 存 体 结构 特别 
需要 的 。Titan 对 浮 点 运算 有 强 的 支持 ， 其 存 - 取 体 系 结构 按 64 位 分 体 ， 适 合 执行 64 位 操作 。 
由 于 整数 只 有 32 位 长 ， 在 Titan 系 统 中 进行 连续 的 向 量 整数 存 取 是 不 好 的 做 法 ， 因 为 在 进行 一 
对 整数 的 第 二 个 数 的 存 取 同 时 ， 内 存 体 却 依 然 还 在 忙于 对 第 一 对 整数 的 存 取 。 结 果 ， 硬 件 就 
会 停止 ， 直 到 内 存 体 完 成 操作 ， 这 样 就 造成 连续 向 量 整数 的 存 取 速度 比 等 价 的 双 精 度 存 取 慢 
3-5 倍 。 编 译 器 解决 这 个 问题 的 方法 是 把 有 连续 整数 操作 的 向 量 循环 分 为 包含 跨 距 为 2 的 操作 
的 两 个 循环 ， 这 种 分 法 是 安全 的 。 根 据 循 环 中 的 依赖 ， 容 易 确定 这 种 分 法 的 安全 性 。 当 这 种 
分 法 可 行 时 ， 可 以 得 到 向 量 整数 代码 中 的 3 倍 的 加 速 比 。 

第 二 种 优化 有 着 更 加 广泛 的 可 应 用 性 ， 它 涉及 到 归 约 操作 。 对 Titan 和 其 他 大 多 数 的 支持 
向 量 归 约 操 作 的 系统 结构 来 说 ， 归 约 的 结果 被 存 和 人 一 组 肾 加 器 。 在 归 约 开始 之 前 ， 需 要 对 累 
加 器 赋 恰 当 的 初 值 ， 在 归 约 结束 的 时 候 ， 还 需要 把 归 约 结果 移出 累加 器 。 

Titan 编 译 器 的 经 验证 实 依赖 分 析 的 价值 ， 依 赖 作为 总 结 执行 约束 的 工具 ， 以 及 作为 最 常 
在 程序 中 被 引用 的 内 存 位 置 的 指示 器 。 这 种 分 析 的 价值 早 在 向 量 机 和 并 行 机 时 代 就 被 认识 到 
了 。 另 外 ，Titan 系 统 结构 的 这 些 概念 对 较 传 统 的 机 器 (具有 浮 点 协 处 理 器 、 非 同步 内 存 访 问 
和 较 深 的 存储 层次 结构 ) 也 是 有 价值 的 。 鉴 于 具有 类 似 特 征 的 新 型 微 处 理 咒 设计 的 流行 一 一 
如 Sony Playstation 2 和 PowerPC G4 (这 里 仅 举 两 个 ) ， 很 显然 ， 依 赖 在 可 预见 的 未 来 仍 将 是 一 
种 有 用 的 工具 。 


10.6 历史 评述 与 参考 文献 

表 调 度 很 久 以 前 就 已 出 现在 计算 机 科学 文献 中 。 它 在 微 码 压缩 、 指 令 调 度 和 任务 调度 中 
被 研究 过 。 这 方面 的 工作 在 Fisher 的 博士 论文 [113] 中 有 很 好 的 总 结 ， 这 篇 论文 也 提出 10.2.3 节 
中 介绍 的 最 高 级 优先 的 启发 式 方法 HLF (highest levels first)。Adam，Chandy 和 Dickson[2] 也 
讨论 过 HLF。Touzeauf258]，Gibbons 和 Muchnick[120] ，Warren[268] 讨 论 了 利用 表 调 度 的 基本 
块 调度 程度 。Garey 和 Johnson[119] 在 其 书 中 证 明 表 调度 是 NP 完全 问题 。Muchnick[218] 在 其 书 
中 提出 他 对 调度 策略 的 非常 卓越 的 看 法 。 

Fisher[113，114] 提 出 了 踪迹 调度 。 基 于 Ellis 在 Yale 大 学 Fisher 的 指导 下 所 完成 的 博士 论文 
[109]， 该 方法 在 Mutiflow 编 译 器 第 一 次 成 功 地 得 到 商业 化 的 实现 。 

核心 调度 ， 也 被 称 为 软 流 水 [72] 或 者 有 环 调 度 ， 最 初 是 由 Rau 和 他 的 同事 基于 Davidson 和 
其 他 人 [98，99， 100] 在 硬件 流水 线 设 计 方 面 所 作 的 一 些 早期 研究 工作 而 提出 的 [232，233]。 
最 初 对 这 个 问题 的 形式 化 包含 了 最 小 迭代 间隔 的 概念 ， 这 一 概念 建立 在 由 资源 约束 和 数据 依 
赖 环 导致 的 下 界 的 基础 上 。 这 些 思想 其 后 在 Hsu[153，154]、Lam[193， 194] 以 及 Su 和 Wang 
[255] 中 得 到 提炼 。Hsu 和 Lam 独 立地 证 明了 对 有 资源 约束 和 任意 依赖 环 的 循环 的 调度 问题 是 
NP 完全 问题 [153，193]。 
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Rau 和 Fisher[231] 对 指令 级 并 行 和 软件 调度 方法 作 了 非常 好 的 总 结 
习题 

10.1 构造 一 个 例子 简单 的 表 调 度 例 子 ， 采 用 支持 预先 计算 关键 路 径 的 最 高 级 优先 (highest 
levels first) 的 启发 式 方法 的 改进 ， 产 生 次 优 的 结果 。 

10.2 指令 调度 在 代码 生成 后 的 汇编 代码 级 进行 。 为 什么 在 源 代 码 级 进行 调度 而 后 生成 代 
码 不 是 一 种 好 的 想法 ? 

10.3 对 数组 访问 的 依赖 分 析 需 要 知道 数组 引用 的 形式 和 与 它们 相关 的 循环 嵌 套 。 没 有 这 
些 源 级 的 信息 ， 你 怎样 决定 内 存 存 取 间 的 数据 依赖 关系 ?不 精确 的 依赖 分 析 会 带 来 什么 样 的 
问题 ? 

10.4 核心 调度 需要 找 出 一 个 循环 中 的 所 有 依赖 环 的 最 大 斜率 。 图 10-8 中 的 算法 用 一 种 求 
最 短路 径 的 算法 。 它 是 怎样 求 最 大 斜率 的 ? 你 能 想 出 另外 一 种 求 最 大 斜率 的 方法 吗 ? 你 能 用 
一 种 有 效 的 方法 求 出 有 最 小 斜率 的 依赖 环 吗 ? 这 些 方法 的 复杂 度 如 何 ? 

10.5 对 带 有 多 级 高 速 缓 存 的 现代 处 理 器 ， 内 存 引 用 的 时 延 与 数据 是 否 在 高 速 缓存 上 和 在 
哪 一 级 高 速 缓存 上 有 关 。 如 果 在 调度 中 不 考虑 不 同 的 内 存 时 延 ， 那 么 会 出 现 什么 问题 ?编译 
器 如 何 确定 内 存 引 用 的 可 能 的 时 延 ? 

10.6 当 内 存 操作 的 时 延 很 小 时 ， 指 令 调 度 的 效果 会 很 好 。 如 果 时 延 较 大 ， 例 如 从 内 存 取 
数 超过 200 个 机 器 周期 ， 那 么 它 的 效果 依然 很 好 吗 ? 你 有 什么 补救 措施 ? 
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过 程 间 分 析 和 优化 


11.1 引言 

由 于 机 器 和 语言 变 得 越 来 越 复 杂 ， 编 译 技术 必须 也 变 得 越 来 越 复杂 。 随 着 向 量 机 和 并 行 
机 的 出 现 ， 只 分 析 单 个 过 程 不 能 再 适应 产生 高 质量 并 行 代码 的 要 求 。 本 章 我 们 介绍 借助 于 过 
程 间 分 析 和 优化 系统 能 够 解决 的 一 些 问题 。 我 们 也 要 介绍 解决 这 些 问题 的 方法 ， 并 总 结 过 去 
15 年 来 过 程 间 编译 方面 的 研究 成 果 。 

我 们 首先 从 术语 “过 程 间 分 析 ” 和 “过 程 间 优 化 ”的 定义 开始 。 过 程 间 分 析 是 指 在 整个 
程序 范围 内 而 不 是 只 在 单个 过 程 内 收集 信息 。 此 处 的 信息 和 单个 过 程 的 数据 流 分 析 收 集 到 的 
信息 类 似 。 过 程 间 分 析 问 题 的 例子 有 : 找 出 由 于 过 程 调用 的 副作用 而 被 修改 的 变量 和 确定 一 
对 变量 在 给 定 过 程 人 口 处 是 否 可 能 互 为 别名 。 

过 程 间 优化 是 涉及 一 个 程序 中 多 个 过 程 的 程序 变换 。 最 熟悉 的 过 程 间 优化 的 例子 是 内 联 
(inling )， 通 过 内 联 过 程 的 调用 点 用 过 程 体 替代 。 尽 管 过 程 间 优化 一 般 会 修改 多 个 子 程序 ,但 
把 任何 基于 过 程 间 信 息 ( 由 过 程 间 分 析 阶 段 收集 ) 的 优化 看 作 是 过 程 内 优化 也 是 合理 的 。 但 
是 ， 本 章 中 我 们 仍然 坚持 使 用 其 较 罕 的 范畴 。 


11.2 过 程 间 分 析 

程序 设计 中 使 用 过 程 的 价值 在 于 过 程 可 以 对 程序 员 隐 藏 一 些 不 必要 的 细节 。 这 样 做 的 一 
个 必然 结果 就 是 它 也 对 编译 器 隐藏 了 一 些 细节 。 但 是 ， 既 然 这 些 细节 可 能 提供 一 些 优化 的 机 
会 ， 这 些 细节 就 可 能 不 是 无 关 紧 要 的 了 。 过 程 间 分 析 的 目标 是 充分 地 重新 找 出 有 用 的 细节 来 
支持 更 进一步 的 优化 策略 。 


11.2.1 过 程 间 问 是 
为 了 说 明 过 程 间 分 析 方 法 的 必要 性 ， 我 们 将 通过 一 系列 例子 来 介绍 几 个 重要 的 问题 。 
修改 和 引用 的 副作用 
我 们 从 一 个 简单 的 向 量化 问题 开始 。 假 设 有 如 下 的 代码 段 : 


COMMON X, Y 


DO 100 1=1, N 

So CALL S 

50 -X(1) = X(I) + YC(1) 

100 CONTINUE 
如 果 没 有 特定 的 过 程 间 优 化 ， 我 们 不 可 能 向 量化 其 中 的 过 程 调用 ， 但是， 我 们 是 否 可 以 向 量 
化 赋值 语句 50 呢 ? 由 于 X 和 Y 都 在 COMMON 块 里 ， 所 以 我 们 必须 考虑 在 S 处 的 过 程 调用 语句 对 这 
些 变量 的 副作用 。 如 果 将 包含 语句 So 和 50 的 循环 进行 循环 分 布 是 合法 的 ， 则 语句 是 可 以 被 向 
量化 的 。 进 而 ， 如 果 不 存在 涉及 两 个 语句 的 依赖 环 ， 这 就 是 可 能 的 。 如 果 这 个 过 程 调用 同时 
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满足 以 下 两 个 条 件 ， 我 们 可 以 确信 不 存在 这 样 的 依赖 环 : 
(1) 过 程 调用 既 没 有 修改 X 也 没有 使 用 X。 
(2) 过 程 调用 没有 修改 Y。 
第 一 个 条 件 保 证 不 可 能 有 涉及 到 过 程 调用 和 语句 50 中 X 的 依赖 环 。 第 二 个 条 件 排除 涉及 到 Y 的 
依赖 环 。 
550 为 了 讲 明 这 个 问题 ， 我 们 介绍 过 程 间 修 改 (M0D) 和 引用 CREF) 的 问题 。 


定义 11.1 在 给 定 的 过 程 调用 点 $5， 修 改 副 作用 集 MOD(S) 是 指 由 于 S$ 处 的 过 程 调用 
的 副作用 而 可 能 被 修改 的 所 有 变量 的 集合 。 引 用 副作用 集 REF(S) 是 指 可 能 由 于 5 处 的 
过 程 调用 的 副作用 而 可 能 被 引用 的 所 有 变量 的 集合 。 


有 了 这 个 定义 ， 我 们 能 够 形式 化 地 重新 描述 以 上 赋值 语句 可 以 向 量化 的 条 件 ， 即 
X EREF(So) BX E MOD(S,)HY E MOD(S,) 


别名 分 析 
假设 我 们 有 以 下 子 程序 : 


SUBROUTINE S(A, X, N) 
REAL A(*), X, Y 
COMMON Y 
DO 100 I =1, N 

So X =X + Y*A(I) 
100 CONTINUE 
END 


为 任何 机 器 编译 这 个 循环 时 ， 如 果 在 整个 循环 的 过 程 中 把 X 和 Y 保 存在 寄存 器 里 ， 并 在 循环 结 
束 之 前 不 把 X 存 回 内 存 ， 会 有 好 的 效果 。 这 看 起 来 很 简单 ， 但 是 如 果子 程序 3 的 以 “CALL S(A， 
Y,N)” 的 形式 被 调用 ， 情 况 又 将 如 何 呢 ?这 种 情况 下 ,，Y 是 X 的 别名 ， 所 以 如 果 不 在 每 次 迭代 
中 存储 X， 我 们 就 可 能 忽略 需要 在 循环 内 更 新 变量 Y9 . 

为 了 避免 类 似 这 样 的 问题 ， 编 译 器 必须 确定 在 子 程序 入 口 处 两 个 变量 是 否 互 为 别名 。 


定义 11.2 对 于 过 程 P 和 传递 给 P 的 一 个 形式 参数 X， 别 名 集合 ALIAS(S, X) 是 指 在 
S 的 人 口 点 和 X 指 向 同一 内 存 位 置 的 变量 集合 。 
551 在 上 面 的 例子 中 ， 如 果 Y EALIAS(S,X), ， 则 X 和 Y 可 以 被 保存 在 寄存 器 里 而 不 用 存 人 内 在。 
调用 图 的 构造 
程序 的 调用 图 是 模拟 程序 中 过 程 之 间 调 用 关系 的 一 种 图 。 
定义 11.3 ”程序 的 调用 图 是 指 图 G =(N, E)， 其 中 NN 中 的 结 点 代表 程序 中 的 过 程 ， 
E 中 的 边 代表 可 能 的 调用 。 
程序 中 每 一 个 调用 点 通常 需要 用 图 中 一 条 单独 的 边 来 表示 ， 这 种 情况 下 ， 调 用 图 实际 上 
日 ”有 见识 的 读者 会 说 ，Fortran 标 准 指明 这 种 用 法 是 非法 的 ， 即 如 果 两 个 变量 在 循环 的 入 口 处 互 为 别名 ， 那 么 


子 程序 对 其 中 的 任何 一 个 写 入 数值 是 不 符合 规范 的 。 虽 然 这 种 规定 可 以 容易 地 解决 上 述 的 特殊 问题 ， 但 这 
只 出 现在 Fortran 中 ， 内 为 C 诸 言 中 没有 这 种 限制 。 
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是 一 个 多 重 图。 我 们 将 在 本 章 的 剩余 部 分 也 遵守 这 个 约定 。 
调用 图 的 准确 性 直接 影响 到 所 产生 的 数据 流 信息 的 精确 性 。 但 是 构造 一 个 精确 的 调用 图 
本 身 就 是 一 个 过 程 间 分 析 问 题 。 对 于 每 次 调用 都 必须 是 带 名 字 的 恒定 过 程 的 语言 ， 构 造 调用 
图 十 分 容易 一 一 你 只 需 检查 每 个 过 程 p 的 过 程 体 ， 为 其 中 每 个 过 程 调用 点 :加 入 一 条 从 p 到 在 s 处 
被 调用 过 程 4 的 边 P, 9)。 
但 对 于 一 种 允许 过 程 变量 的 语言 ， 构 造 精确 调用 图 就 困难 得 多 了 。 即 使 在 Fortran 中 ， 程 
序 中 不 允许 有 可 赋值 的 过 程 变量 ， 由 于 过 程 参数 的 存在 仍然 会 导致 问题 一 一 形式 参数 可 以 在 
调用 点 处 和 过 程 名 绑 定 。 考 虑 如 下 例子 : 
SUBROUTINE S(X, P) 
Se CALL P(X) 
RETURN 
END 
这 里 的 问题 是 哪个 过 程 或 哪些 过 程 可 能 在 语句 So 处 被 调用 ? 换 名 话说， 在 这 个 调用 点 ?具有 什 
么 值 ? 我 们 可 以 通过 检查 调用 子 程序 5 的 所 有 调用 点 处 的 实际 参数 来 试图 解答 这 个 问题 ,但 是 
任何 的 实际 参数 本 身 可 能 又 是 一 个 过 程 参 数 。 这 样 ， 我 们 就 必须 在 构造 好 调用 图 之 前 在 调用 
图 上 传播 过 程 常数 。 
定义 11.4 ”对 于 给 定 的 过 程 p 和 p 中 的 调用 点 s， 调 用 集 CALL(s) 是 指 可 能 在 * 处 被 
调用 的 所 有 过 程 的 集合 。 


虽然 调用 集 是 作为 调用 点 的 一 种 属性 提出 ， 但 是 ，CALL(s) 不 是 一 个 副作用 问题 。 它 实际 
是 在 探求 在 包含 * 的 过 程 和 人 口 处， 哪些 过 程 将 被 传 给 形式 参数 。 由 于 这 个 问题 依赖 于 包含 5 的 
过 程 被 调用 处 的 上 下 文 ， 所 以 与 其 他 副作用 问题 相 比 ， 该 问题 更 类 似 于 别名 分 析 。 


活跃 分 析 和 使 用 分 析 
一 个 已 经 在 文献 中 得 到 广泛 研究 的 重要 的 数据 流 问 题 是 活跃 变量 的 分 析 。 如 果 存 在 一 条 
从 s 点 到 x 的 一 个 使 用 点 的 控制 流 路 径 ， 且 这 条 路 径 上 在 x 的 这 个 使 用 之 前 没有 对 x 的 定义 ， 就 
说 变量 x 在 程序 中 给 定点 s 是 活跃 的 。 
活跃 分 析 的 一 个 重要 应 用 是 判断 在 一 个 并 行 循环 执行 的 末尾 处 ， 是 否 需 要 把 一 个 循环 内 
的 私有 变量 赋 给 一 个 全 局 变量 。 考 虑 如 下 代码 段 : 
DOI=1,N 
T=X(I) *C 
ACI) = T + BCT) 
C(I) = T + D(I) 
ENDDO 
把 T 作 为 一 个 循环 内 的 局 部 变量 ， 这 个 循环 可 以 被 并 行 化 。 但 是 ， 如 果 T 在 后 面 程序 中 的 
使 用 是 在 它 被 重 定义 之 前 ， 那 么 这 个 并 行 化 程序 必须 把 局 部 变量 T 的 最 后 的 值 赋 给 一 个 T 对 应 
的 全 局 变量 。 换 句 话说 ， 代 码 必须 被 转换 成 : 
PARALLEL DO I = 1, N 
PRIVATE t 
t=X(I) *C 
A(I) = t + B(I) 
C(I) =t + D(I) 
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IF (1 .EQ. N) T =t 
ENDDO 
这 里 我 们 有 一 个 印刷 上 的 约定 ， 所 有 小 写字 母 表示 的 变量 都 是 由 编译 器 引入 的 变量 。 
如 果 ， 我 们 能 断定 变量 T 在 原始 循环 的 出 口 处 不 活跃 ， 那 么 这 段 代 码 可 以 被 化 简 。 在 这 种 
情况 下 ， 循 环 结尾 处 的 条 件 语 句 可 以 被 删除 ， 于 是 代码 变 为 
PARALLEL DO I = 1, N 
PRIVATE t 
t = X(I) * 人 
A(I) =t+8(I) 
C(I) = t + D(I) 
ENDDO 
虽然 ， 活 跃 分 析 本 身 可 以 看 作 是 过 程 间 问题 ， 但 是 用 另 一 个 过 程 间 分 析 问 题 来 处 理 它 也 是 方 
便 地 。 使 用 分 析 问 题 是 判断 在 一 些 通过 某 过 程 的 某 个 特定 调用 点 s 的 路 径 上 ， 一 个 变量 是 否 存 
在 一 个 向 上 暴露 使 用 。 向 上 暴露 使 用 是 指 从 过 程 调用 发 生 到 这 个 使 用 点 的 某 条 路 径 上 ， 在 这 
个 使 用 之 前 不 存在 对 变量 的 定义 。 


”定义 11.5 ”对 调用 过 程 p 的 给 定 调用 点 s， 使 用 副作用 集 USE(s) 是 指 在 p 中 有 向 上 
暴露 使 用 的 变量 集合 。 


有 了 这 个 定义 ,我们 可 以 对 一 个 变量 何 时 活跃 的 问题 给 出 一 个 更 加 形式 化 的 说 明 。 如 果 
XEUSE(s)， 或 者 存在 一 条 通过 s 处 过 程 调用 的 路 径 并 在 此 路 径 上 没有 给 x 赋 新 的 值 ， 且 x 在 s 的 控 
制 流 后 继 处 活跃 ， 则 变量 x 在 调用 点 s 处 是 活跃 的 。 

注销 分 析 

REF ，WM0D 和 USE 这 类 问题 是 问 : 在 通过 被 调用 子 程序 的 某 条 路 径 上 可 能 会 发 生 什么 。 另 外 ， 
提问 在 通过 一 个 过 程 的 每 条 路 径 上 必定 发 生 什么 的 问题 也 是 十 分 有 用 的 。 下 面 的 例子 可 以 说 
骨 这 点 : 


L pOI=1,N 
So CALL INIT(T, I) 


T=T + BI) 
ACI) = ACI) + T 
ENDDO 


这 里 有 两 个 问题 可 能 会 阻碍 这 个 循环 被 正确 地 并 行 化 。 首 先 ， 我 们 不 知道 子 程序 INIT 将 
会 做 什么 ， 所 以 必须 假设 它 对 变量 赋值 的 方式 上 将 会 造成 依赖 环 。 对 程序 的 一 个 全 局 变量 先 
使 用 后 赋值 就 是 造成 依赖 环 的 一 种 方式 。 例 如 ， 如 果 INIT 被 定义 为 如 下 代码 ， 就 不 能 被 并 行 
化 了 : 

SUBROUTINE INIT(T, I) 

REAL T 

INTEGER I 

COMMON X(100) 

T = X(I) 

X(I+1) = T + X(1) 

END 


这 里 ， 从 调用 的 程序 中 的 循环 的 角度 看 ，INIT 造 成 一 个 含有 COMMON 数 组 X 的 依赖 环 。 





it £2 li] Dai fe HEL 381 


但 是 ， 即 使 我 们 能 证 明 这 个 循环 不 会 修改 任何 全 局 变量 或 者 甚至 是 任何 静态 局 部 变量 
( 即 “SAVE” 变 量 )， 过 程 调 用 仍然 会 给 我 们 带 来 更 为 微妙 的 问题 。 如 果 这 个 循环 被 并 行 化 ， 
就 必定 可 能 识别 出 变量 T 相 对 于 每 次 迭代 都 是 私有 变量 。 这 种 情况 是 可 能 的 ， 例 如 ， 如 果子 程 
序 INIT 只 是 为 了 初始 化 T， 就 像 在 下 面 的 代码 中 那样 : 

SUBROUTINE INIT(T, I) 

REAL T 
INTEGER I 
COMMON X(100) 
T= X(I) 

END l 
i NOT REA HY ERIK EAA AT ABR RAIL. KEE, ERRATA SADR NE (eK 
赖 有 关 ， 于 是 它 可 以 被 私有 化 。 

但 是 ， 我 们 如 何 才 能 发 现 这 个 事实 呢 ? 当然 ，M0D 可 以 告诉 我 们 子 程序 内 没有 改变 过 任何 
全 局 变量 ， 因 此 可 以 假设 类 似 的 分 析 可 以 排除 INIT 中 任何 静态 局 部 变量 在 修改 之 前 被 使 用 的 
可 能 性 。 所 以 ， 决 定 这 个 循环 是 否 可 以 被 并 行 化 的 关键 在 于 证 明 ， 变 量 T 在 通过 INIT 的 每 条 路 
径 上 被 使 用 之 前 先 被 赋值 。 

判断 一 个 变量 是 否 在 通过 一 个 过 程 调用 的 每 条 路 径 上 都 被 赋值 的 问题 称 为 KILL (注销 ) 
问题 ， 因 为 一 个 变量 的 赋值 将 “注销 ”变量 先前 的 值 。 


定义 11.6 ”对 于 给 定 的 过 程 调用 点 ;， 注 销 副 作用 集 KILL(p) 是 指 通过 在 "处 调用 
的 过 程 p 和 在 p 之 内 调用 的 过 程 的 每 条 路 径 上 都 被 赋值 的 变量 的 集合 。 


假设 在 集合 MOD(p) 内 没有 全 局 变量 ， 且 Pp 没有 在 赋值 之 前 使 用 任何 静态 局 部 变量 ， 那 么 ， 
如 果 变 量 T 在 通过 So 处 调用 的 过 程 的 每 条 路 径 上 都 被 注销 ， 且 不 存在 任何 通 往 过 程 内 部 的 路 径 ， 
在 此 路 径 上 T 在 注销 之 前 被 使 用 ， 循 环 [ 就 可 以 被 并 行 化 。 这 一 点 可 以 形式 化 地 表示 为 
T E (KILL(S0) N SUSE(S,)) 
假设 调用 点 s 是 在 一 个 单独 的 基本 块 内 ， 在 包含 ;的 过 程 中 ， 我 们 可 以 定义 LIVE(s) 如 下 : 
LIVE(s) = USE(s) U (-KILL(s) N LIV E(b)) (11-1) [555 


如 果 我 们 通过 额外 分 析 知 道 过 程 出 口 的 活跃 变量 集合 ， 以 上 的 公式 将 活跃 变量 的 计算 扩展 到 
过 程 间 的 情况 。 

常数 传播 

常数 传播 是 单 过 程 数 据 流 分 析 中 最 重要 的 问题 之 一 ， 同 时 也 是 一 个 重要 的 过 程 间 问 题 。 
考虑 下 面 的 从 LINPACK 代 码 中 抽出 来 的 例子 : 


SUBROUTINE S(A, B, N, IS, I1) 
REAL A(*), B(*) 
L DO I = 0, N-1 
So ACIS#I+I1) = A(IS*I+I1) + B(I+1) 
ENDDO 
END 


如 果 我 们 想 向 量化 这 个 子 程序 中 的 循环 L ， 这 里 存在 一 个 由 于 变量 1S 可 能 为 0 值 所 产生 的 
问题 。 如 果 IS 的 值 为 0， 就 存在 一 个 输出 依赖 。 这 样 ， 语 句 So 实 际 上 是 一 个 归 约 操作 ， 不 能 
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常规 的 技术 去 向 量化 它 。 虽 然 ， 可 以 在 运行 时 测试 这 种 情形 的 出 现 ， 但 如 果 我 们 可 以 在 包含 
子 程序 $ 的 程序 中 每 个 的 调用 处 判断 出 1S 的 值 总 是 为 1 (最 常见 的 情况 ) 8 ， 那 么 可 以 完全 吕 
免 处 理 这 种 情形 。 


定义 11.7 给 定 一 个 程序 和 程序 中 的 过 程 p»， 过 程 间 常数 集合 CONST(p) 包含 每 次 
调用 p 时 值 为 已 知 常数 的 变量 。 对 于 一 个 变量 xz E CONST), valin(x, p) 是 一 个 返回 x 
在 PP 人口 处 的 值 的 函数 。 


虽然 单 过 程 的 常数 传播 问题 是 比较 难处 理 的 ， 但 是 ， 已 经 证 明 单 过 程 的 近似 解决 方案 是 
比较 有 效 的 [237]。 同 样 ， 过 程 间 常 数 传播 的 近似 解决 方案 也 能 帮助 判定 很 多 对 优化 和 并 行 化 
有 用 的 事实 [127，136]。 

11.2.2 过 程 间 问题 分 类 

这 里 我 们 将 探讨 过 程 间 数 据 流 问题 的 各 种 分 类 。 这 些 分 类 是 十 分 有 用 的 ， 因 为 同一 类 的 
问题 可 以 用 同样 的 算法 过 程 来 解决 。 

可 能 问题 和 必定 问题 

对 于 询问 某 些 事件 是 “可 能 ”发 生还 是 “必定 ”发 生 的 问题 ， 我 们 已 经 看 到 了 问题 之 间 
的 差异 。M0D ，REF 和 USE 是 可 能 问题 ， 因 为 它们 分 别 计 算出 的 是 可 能 被 修改 的 、 可 能 被 引用 的 
和 可 能 在 定义 前 被 使 用 的 变量 的 集合 。 相 反 ，KILL 是 必定 问题 ， 因 为 它 计 算出 的 是 必定 被 注 
销 的 变量 的 集合 。 

虽然 ， 这 些 差异 在 文献 中 已 经 得 到 了 广泛 的 讨论 ， 但 并 不 深入 ， 因 为 每 个 可 能 问题 的 逆 
问题 就 是 一 个 必定 问题 ， 反 之 亦 然 。 例 如 ，-W0D(s) 是 所 有 不 在 MOD(s) 中 的 变量 的 集合 。 所 以 ， 
=-WM0D 问 题 是 寻找 那些 必定 不 会 在 一 个 给 定 的 调用 点 被 作为 调用 的 副作用 所 修改 的 变量 。 这 样 ， 
=W00 是 一 个 必定 问题 。 同 样 ，-REF 也 是 一 个 必定 问题 。 相 反 ，- 炎 ILL 问 题 是 为 程序 中 每 个 调 
用 点 * 寻 找 那 些 在 被 调用 的 过 程 执 行 中 可 能 不 被 修改 的 变量 集合 ， 所 以 ， 必 定 问 题 KILL 的 逆 问 
题 是 一 个 可 能 问题 。 由 于 任何 集合 问题 的 解 可 以 从 全 集中 相 减 (通常 是 位 向 量 的 补 ) 转换 为 
逆 问 题 的 解 ， 这 样 做 所 需 的 时 间 与 解 集合 数目 呈 线 性 关系 ， 所 以 ， 必 定 问 题 和 它 对 应 的 可 能 
问题 不 存在 复杂 度 的 差别 。 

流 敏感 问题 和 流 不 敏感 问题 

Banning[37] 给 出 了 关于 流 敏感 问题 和 流 不 敏感 问题 的 一 种 看 起 来 相关 的 概念 。 从 直觉 上 
讲 ， 流 敏 鳄 问题 需要 跟踪 被 调用 子 程序 体 中 的 不 同 控 制 流 路 径 来 求解 。 另 一 方面 ， 求 解 流 不 
敏感 问题 则 可 以 只 检查 被 调用 子 程序 体 ， 而 不 必 考 虑 控制 流 。 这 样 ，M0D 和 REF 问 题 就 是 流 不 
敏感 问题 ， 这 是 因为 假设 子 程序 中 的 所 有 代码 都 是 可 达 的 ， 对 子 程序 p 的 过 程 体 中 任何 一 个 变 
量 x 的 修改 都 意味 着 ， 对 于 任何 调用 p 的 调用 点 s 来 说 ，xEMOD(s)。 但 是 ，KILL 是 一 个 流 敏感 问 
题 ， 这 是 因为 对 于 一 个 给 定 变量 x， 它 的 解 需要 检查 通过 过 程 的 每 条 路 径 以 确认 在 这 个 路 径 上 
包含 一 个 对 x 的 定义 。 

Banning[37] 给 出 流 敏感 问题 和 流 不 敏感 问题 更 加 形式 化 的 定义 ， 这 个 定义 基于 将 调用 图 
的 子 区 域 中 的 解 组 合 到 更 大 区 域 的 解 中 。 考 虑 图 7-11 中 描述 的 两 个 调用 图 区 域 。 


日 ”除了 这 种 情况 外 ， 如 果 我 们 可 以 证 明 每 次 进入 循环 时 IS x 0， 那么 也 可 以 向 量化 。 类 似 这 样 的 谓词 分 析 也 
可 以 用 常数 传播 的 变形 形式 来 处 理 。 
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假设 我 们 已 知 区 域 R: 和 Rz: 的 子 区 域 A 和 B 的 各 自 M0D 集 合 。 那 么 ， 我 们 可 以 把 这 两 个 集合 以 
如 下 的 方式 组 合 得 到 整个 区 域 的 解 : 
MOD(R,) = MOD(A) U MOD(B) 
MOD(R,) = MOD(A) U MOD(B) 557 
这 样 组 合 的 原因 是 : 对 于 上 面 任何 一 种 子 图 分 解 方式 ， 在任 一 子 区 域 中 修改 某 一 变量 ， 那 么 
在 整个 区 域内 这 个 变量 就 有 可 能 被 修改 。 对 于 REF 问 题 ， 也 有 类 似 的 一 对 等 式 : 
REF(R,) = REF(A) U REF(B) 
REF(R,) = REF(A) U REF(B) 
现在 针对 KILL 解 决 同样 的 问题 。 在 区 域 Ri 的 情形 中 ， 一 个 变量 只 要 在 第 一 个 子 区 域 被 注 
销 或 在 第 二 个 子 区 域 被 和 注销， 那么 这 个 变量 在 整个 区 域 被 注销 : 
KILL(R,) = KILL(A) U KILL(B) 
对 于 区 域 R 的 情形 ， 一 个 变量 只 有 在 两 个 子 区 域 中 都 被 注销 ， 它 才能 在 KILL(R;) 中 : 
KILL(R,) = KILL(A) O KILL(B) 
USE 的 等 式 很 容易 得 到 : 
USE(R,) = USE(A) U (AKILL(A) MUSE(B)) 
USE(R,) = USE(A) U USE(B) 
其 中 第 二 个 方程 式 同 MOD 和 REF 的 对 应 等 式 一 样 。 
察看 这 些 等 式 ， 我 们 注意 到 : 在 MOD 和 REF 的 等 式 中 只 使 用 集合 “并 ”作为 连接 符 ， 而 
KILL 和 USE 的 等 式 更 加 复杂 一 些 ， 用 到 其 他 连接 符 且 通常 用 到 其 他 局 部 集合 。 这 就 使 我 们 有 了 
以 下 的 定义 : 
定义 11.8 过 程 间 数据 流 问题 是 流 不 敏感 的 ， 当 且 仅 当 , 对 问题 的 无 参 形 式 而 言 ， 
在 以 串 行 方式 和 选择 方式 组 合 的 区 域 (如 图 11-1 的 Ri 和 R:) 中 ， 解 的 值 都 由 子 区 域 的 
解 的 并 集 得 到 。 


优化 方面 的 文献 有 时 会 涉及 对 流 敏 感 问题 的 流 不 敏感 分 析 。 我 们 对 这 个 术语 的 解释 是 用 
DEAR BE [a] EPR UE te BORA]. HE TF, 


假设 你 想 要 用 一 个 和 多 个 流 不 敏感 问题 的 解 逼近 USE (+) Q 
问题 的 解 。 请 注意 ， 当 知道 一 个 变量 不 在 一 个 过 程 p 
的 USE(p) (过 程 p 被 正在 被 优化 的 过 程 调用 ) 中 时 ， 大 (+) (a) 
多 数 优 化 才能 进行 。 所 以 ， 我 们 希望 近似 结果 APUSE 
是 保守 的 ， 即 包含 USE 集 合 中 所 有 的 元 素 : G) 
USE(p) = APUSE(p) 或 -APUSE(P) = ~USE(p) C 
在 这 种 情况 下 我 们 永远 不 基于 不 真 的 命题 。 一 个 可 能 DCRR, 区 域 R， 
的 近似 由 图 11-1 调用 图 子 区 域 


APUSE(p) = REF(p) 
给 出 ， 这 个 集合 很 明显 是 USE(p) 的 一 个 超 集 ， 可 以 通过 解 一 个 流 不 敏感 问题 得 到 。 我 们 将 会 
看 到 ， 这 样 做 可 能 是 有 用 的 ， 因 为 流 不 敏感 问题 比 流 敏感 问题 容易 求解 。 但 是 ， 我 们 并 不 推 
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荐 使 用 像 这 样 的 近似 ， 因 为 使 用 流 敏感 分 析 能 够 在 合理 时 间 内 得 到 更 加 精确 的 近似 。 

副作用 问题 和 传播 问题 

过 程 间 问 题 的 最 后 一 种 分 类 是 按照 数据 流 的 方向 分 类 。 一 些 过程 间 问题 的 是 问 : 作为 一 
个 过 程 调用 的 副作用 ， 什 么 事情 可 能 发 生 或 必定 发 生 ? 我 们 称 为 副作用 问题 的 这 类 问题 包括 
MOD，REF ，KILL 和 MUSE 问 题 。 这 类 问题 类 似 于 单 过 程 分 析 中 的 后 向 数据 流 问 题 。 

第 二 类 问题 是 问 : 什么 条 件 在 当前 过 程 人 口 处 可 能 成 立 或 必定 成 立 (这些 条 件 多 半 是 我 
们 在 优化 中 所 关心 的 )。 我 们 称 这 些 问题 为 传播 问题 。 这 类 问题 包括 ALIAS ，CALLS 和 CONST 问 
题 。 在 副作用 问题 中 用 到 的 把 问题 分 为 流 敏感 和 流 不 敏感 的 方法 不 适用 于 传播 问题 ， 因 为 这 
类 问题 需要 后 向 查看 调用 链 。 但 是 ， 通 常 认为 Fortran 中 的 别名 问题 是 流 不 敏感 问题 ， 因 为 只 
有 5 引用 形式 参数 才 会 引入 别名 。 这 样 ， 通 过 一 个 子 程序 到 一 个 调用 点 的 流 信息 是 不 重要 的 ， 
因为 别名 只 能 在 过 程 调用 处 引入 。 

男 一 方面 ，Fortran 中 的 常数 传播 问题 是 流 敏感 的 ， 因 为 对 于 传人 某 个 被 调用 过 程 的 一 个 
当 数 ， 相 应 变量 必须 在 通过 调用 链 上 每 个 过 程 的 每 条 路 径 上 都 得 到 同样 的 常数 值 。 基 于 同样 
的 理由 ， 有 指针 赋值 的 语言 (如 C 语 言 ) 中 的 别名 分 析 也 是 流 敏感 问题 。 

表 11-1 总 结 两 维 分 类 问题 。 将 问题 分 类 为 流 敏感 和 流 不 敏感 是 很 重要 的 ， 因 为 Banning 给 
出 了 一 个 算法 ,证 明了 流 不 敏感 问题 可 以 在 调用 图 的 大 小 的 多 项 式 时 间 内 求解 [37]， 而 
Mayers 证 明了 流 敏感 问题 在 有 别名 和 任意 典 套 的 情况 下 是 很 难 解决 的 [220]。 


表 11-1 过 程 间 问 题 分 类 


问题 类 型 t “ 播 a] 作 用 
流 敏感 ALIAS, CALLS MOD, REF 
流 不 敏感 CONST KILL, USE 


11.2.3 流 不 敏感 副作用 分 析 

我 们 现在 开始 讨论 流 不 敏感 副作用 分 析 问 题 的 解 。 在 本 节 中 ， 我 们 用 修改 副作用 分 析 
(MOD) 问题 作为 例子 。 引 用 副作用 分 析 (REF) 问题 可 以 用 完全 相同 的 方法 求解 。 

一 些 假设 

首先 ,我 们 建立 一 些 代表 Fortran 特 点 的 假设 ,在 某 些 情形 中 , 也 代表 了 C 中 的 特点 。 首 先 ， 
我 们 假设 没有 过 程 代 套 。 就 是 说 ， 变 量 被 分 为 局 部 变量 集合 和 全 局 变量 集合 。 局 部 变量 只 在 
本 过 程 中 可 见 ， 而 全 局 变量 对 每 个 过 程 都 可 见 。 虽 然 这 看 起 来 可 能 比较 严格 ， 但 是 这 里 介绍 
的 方法 很 容易 扩展 到 通常 的 伐 套 情况 下 。 

已 经 隐 含 的 第 二 个 假设 是 所 有 的 参数 都 以 引用 方式 传递 并 且 没 有 指针 变量 。 这 个 限制 是 
为 了 简化 各 个 算法 必须 处 理 的 别名 模式 。 在 这 个 限制 下 ， 别 名 只 会 在 过 程 调用 点 引入 。 虽 然 ， 
Fortran 90 和 C 中 都 有 指针 变量 ， 但 这 个 假设 对 Fortran 77 是 成 立 的 ， 而 Fortran 77 是 大 多 数 自动 
并 行 化 系统 的 输入 语言 。 

虽然 Fortran 77 不 支持 递归 调用 ， 但 这 里 所 讲 的 算法 在 有 递归 过 程 调 用 的 情况 下 仍 是 正确 
的 。 但 是 ， 我 们 做 了 一 个 关于 过 程 的 参数 表 大 小 的 假设 ， 即 一 个 过 程 形 式 参 数 的 最 大 数目 不 
随 程序 的 大 小 而 增长 。 换 名 话说 ， 程 序 员 一 般 不 通过 增加 过 程 接口 的 复杂 性 来 处 理 大 程序 增 
加 的 复杂 度 。 这 样 ， 我 们 将 假设 存在 一 个 常数 x， 任何 过 程 p 的 形式 参数 数目 都 小 于 等 于 4。 
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MOD 问 题 陈述 

这 个 问题 的 目标 是 给 程序 中 每 个 过 程 调用 点 s 计 算 MOD(s) 集合 ， 这 个 集合 包括 可 能 作为 处 
的 过 程 调 用 的 副作用 而 被 修改 的 每 个 变量 。 首 先 要 注意 的 是 ， 我 们 可 以 通过 忽略 其 中 潜在 的 
别名 来 简化 问题 。 特 别 ， 我 们 将 计算 直接 修改 副作用 集 DMOD(s)， 这 个 集合 包括 所 有 在 s 处 可 见 
的 作为 调用 的 副作用 而 被 直接 修改 的 变量 。DMOD(s) 可 能 比 MOD(s) 小 ， 因 为 它 没 有 考虑 过 一 个 
被 副作用 所 修改 的 变量 x 在 调用 点 处 有 几 个 可 能 的 别名 的 情况 。 如 果 解 是 精确 的 ， 所 有 这 些 别 
名 都 应 当 在 最 后 的 MO0D(s) 中 。 但 是 一 旦 DMOD(s) 被 计算 出 之 后 ， 就 可 以 借助 于 11.2.1 节 中 介绍 
的 别名 和 集 对 其 进行 更 新 ， 从 而 得 到 MOD(s)。 

前 面 提 到 ， 对 于 给 定 过 程 p，ALIAS(p, x) 包含 所 有 在 p 的 入 口 处 可 以 作为 x 别名 的 变量 。 有 
了 这 些 集 合 ， 我 们 可 以 按照 如 下 公式 把 DMOD(s) 更 新 为 MOD(s): 

MOD(s) = DMOD(s) U agn ALIAS p, x) (11-2) 


其 中 p 是 包含 调用 点 s 的 过 程 。ALIAS(p,x) 的 构造 将 在 11.2.4 中 讨论 。 

我 们 将 为 每 个 调用 点 计算 DM0D(s)， 首 先 为 程序 中 每 个 过 程 p 计 算 称 为 综合 修改 副作用 的 集 
合 6MOD(p)。6MOD(p) 包含 作为 p 被 调用 的 结果 而 直接 或 间接 被 修改 的 全 局 变量 和 形式 参数 的 集 
合 。 一旦 有 了 这 些 集 合 后 ， 我 们 可 以 通过 以 下 公式 计算 DM0D(s): 


DMOD(s) ={{v|s HT p, v>w Hw © GMOD (p)} (11-3) 


其 中 "一 w 表示 在 调用 点 * 处 实在 参数 v 被 绑 定 到 被 调用 过 程 的 形式 参数 w 或 v" 和 w 是 对 同一 全 局 
变量 的 引用 。( 换 句 话说， 在 这 个 公式 里 全 局 变量 可 以 看 作 是 被 调用 过 程 的 一 类 参数 。) 
下 面 通过 一 个 例子 来 说 明 DMOD 和 6M0D 的 定义 。 如 果 ， 我 们 有 一 个 调用 点 


So CALL P(A, B, C) 


其 中 子 程序 p 被 定义 为 
SUBROUTINE P(X, Y, Z) 
INTEGER X, Y, Z 
X=X*Z 
Y=Y*Z 
END 
ABZ, GMOD(P) = {X,Y} #UDMOD(S,)={A,B}. 
等 式 (11-3) 把 DMOD 问 题 化 简 为 对 程序 中 每 个 过 程 p 计 算 可 能 作为 调用 p 的 副作用 而 被 修 
改 的 变量 的 集合 GM0D()。 通 常 来 讲 ，6M0DC) 包含 两 类 变量 : 
(1) 在 p 的 过 程 体 中 被 显 式 修 改 的 变量 ; 
(2) 在 p 的 过 程 体 作为 某 个 调用 过 程 的 副作用 而 被 修改 的 变量 。 
如 果 直 接 修改 副作用 集 IMOD(p) 代表 p 中 显 式 修 改 的 变量 集合 ， 那 么 以 下 公式 成 立 : 


GMOD(p) = IMOD(p) U U {zlz >w Hw © GMOD (q)} (11-4) 


注意 并 集 计算 包括 p 中 所 有 的 调用 点 s。 

问题 分 解 

等 式 (11-4) 中 的 数据 流 方程 组 可 以 用 数据 流 分 析 的 迭代 法 求解 。 但 是 ， 得 到 这 个 解 需要 
比较 长 的 时 间 ， 因 为 这 个 方程 组 不 满足 选 代 法 快速 收敛 的 条 件 [164]。 它 甚至 不 能 表示 成 可 以 使 


wa 
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用 快速 消去 法 的 形式 [125]。 要 快速 得 到 解 , BRAG UR Hill) Dra REP dD Ee PC PK 
对 于 流 不 敏感 的 过 程 间 分 析 ， 问 题 图 就 是 调用 图 ， 因 而 收敛 问题 就 局 限 在 递归 调用 的 区 域内 。 
进一步 察看 带 有 递归 的 问题 发 现 这 和 引用 形式 参数 有 关 。 考 虑 下 面 的 例子 : 


SUBROUTINE P (Fo, Fy, Fo, ..., Fa) 
INTEGER X, Fo, Fi, Fo, ..., Fa 
So Fy = some expression 


Si CALL P(Fi, Fo, ..., Fn, X) 


END 

从 这 个 例子 中 可 以 看 出 ， 为 什么 在 一 般 情况 下 分 析 过 程 必须 沿 递 归 环 迭代 不 确定 的 次 数 。 要 
回答 的 问题 是 ， 子 程序 P 有 多 少 个 参数 将 由 于 调用 P 的 副作用 而 被 修改 ?很 明显 ，Fo 会 在 语 旬 5。 
处 被 修改 ， 但 是 我 们 必须 检查 在 Si 处 的 递归 调用 ， 发 现 Fi 被 传 给 Fuo， 所 以 它 也 会 被 修改 。 沿 递 
归 循 环 再 选 代 一 次 发 现 F: 也 可 以 被 修改 。 选 代 过 程 一 直 会 持续 到 我 们 发 现 最 后 一 个 参数 F, 也 会 
被 修改 。 如 果 n 为 不 确定 大 小 ， 那 么 递归 环 上 的 迭代 也 会 进行 不 确定 的 次 数 。 

这 些 观察 清楚 说 明 为 什么 我 们 对 所 有 子 过 程 要 假设 一 个 参数 数目 的 上 界 一 一 它 使 我 们 建立 
一 个 迭代 次 数 的 常数 上 界 ， 这 是 迭代 过 程 收敛 所 必需 的 。 但 是 ,我们 可 以 通过 对 问题 的 进 一 
步 分 解 而 得 到 更 好 的 时 间 上 界 一 一 即 分 别处 理 引 用 参数 的 副作用 和 全 局 变量 的 副作用 。 为 做 
到 这 一 点 ， 先 要 引入 直接 修改 副作用 和 集 IMO0D(p) 的 一 种 扩展 形式 ， 称 为 1M0D1(p)， 这 个 集合 除 
了 包括 所 有 IM0D(p) 中 的 变量 外 ， 还 包括 所 有 由 于 从 p 中 调用 过 程 的 形式 参数 引用 的 副作用 而 
被 修改 的 变量 。 换 旬 话 说 ， 当 以 下 条 件 之 一 成 立时 ， 变 量 x 在 IMOD+(p) 中 : 

(1) x € IMOD(p) 

(2) xz Hz E GMOD(g), Hrs =(p, 9) 且 z 是 9 的 形式 参数 

如 果 我 们 能 为 程序 中 每 个 过 程 计算 I1M0D+(p)， 那 么 我 们 就 可 以 用 下 面 简 单 的 方程 组 求解 
GMOD(p): 

GMOD(p) = IMOD*(p)U_ U GMOD@)N -LOCAL (11-5) 


其 中 LOCAL 表 示 程 序 中 所 有 的 局 部 变量 ， 所 以 它 的 补 集 是 所 有 全 局 变量 的 集合 。 由 于 所 有 关于 
引用 形式 参数 的 副作用 都 反映 在 IMOD+(p)， 我 们 只 需要 确认 其 后 继 的 6M0D 集 的 并 反映 了 所 有 
关于 全 局 变量 的 副作用 。 如 果 一 个 全 局 变量 由 于 调用 p 而 被 修改 ， 它 必定 属于 以 下 三 中 情况 之 
一 : (1) 在 子 程序 体 中 被 直接 修改 ， 这 种 情况 下 ， 这 个 变量 属于 IMOD(p) 和 IMOD+(p); (2) 作 
为 实际 参数 传 给 了 另 一 个 子 过 程 ， 而 在 另 一 个 子 过 程 中 被 修改 ， 这 种 情况 下 ， 根 据 定义 这 个 
变量 属于 IM0D+(p); G) 被 过 程 p 直 接 或 间接 调用 的 子 程序 作为 全 局 变量 修改 ， 这 种 情况 下 ， 
这 个 变量 属于 p 的 某 个 后 继 q 的 6MOD(q) 集合 。 由 此 证 明 公 式 (11-5). 

现在 ,我 们 已 经 把 问题 分 解 成 了 两 部 分 : 

(1) 为 程序 中 每 个 过 程 p 计 算 IMOD+(p)。 

(2) 按照 等 式 (11-5) 传播 全 局 变量 的 修改 。 

我 们 将 在 以 下 两 个 小 节 中 介绍 这 两 部 分 的 计算 。 

计算 IMOD+ 

下 面 我 们 建立 一 个 特殊 的 数据 结构 ， 称 为 练 定 图 : 
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(1) 为 程序 中 每 个 过 程 /的 每 个 形式 参数 构造 一 个 结 点 。 

(2) 如 果 过 程 p 的 形式 参数 在 调用 点 s = (p, 4) 处 被 绑 定 到 过 程 4 的 形式 参数 户 F ， 我 们 构 
ERN ANRA A. 

我 们 可 能 问 的 一 个 很 直接 的 问题 是 : 绑 定 图 会 有 多 大 ? MRNA RRE RRA, E 
是 边 的 数目 ,那么 绑 定 图 的 结 点 的 数目 不 会 大 于 UV, 其 中 kK 是 程序 中 任意 过 程 的 参数 数目 的 上 界 。 
、 因 为 整个 程序 的 绑 定 图 中 不 可 能 有 多 于 形式 参数 数目 的 结 点 ， 而 形式 参数 数目 是 以 MKN 为 上 界 的 ， 
所 以 以 上 命题 是 正确 的 。 同 样 ， 由 于 在 一 个 独立 的 实 参 的 位 置 至 多 只 能 出 现 一 个 形式 参数 的 引 
用 ， 所 以 由 调用 图 中 的 每 条 边 构 造 出 的 〈 绑 定 图 ) 边 不 可 能 多 于 4 条 。 这 样 ， 绑 定 图 中 的 边 的 总 
数 就 不 会 大 于 ME ， 绑 定 图 也 不 会 大 于 调用 图 大 小 的 某 个 常数 倍数 ， 即 它 的 大 小 是 OUV+ 司 。 

ARMOD(p) 表示 在 过 程 p 中 通过 直接 修改 或 由 于 被 赋 给 被 p 调 用 的 过 程 q 的 引用 形式 参数 而 
被 修改 的 p 的 形式 参数 集合 。 显 然 ， 下 面 的 等 式 成 立 : 


IMOD*(p)=IMOD(p) U U {lz >w HwERMOD(g)} (11-6) 
s=(p. 9 


这 个 等 式 与 等 式 (11-4) 类 似 。 这 样 ， 对 程序 中 每 个 过 程 我 们 只 需要 构造 RM0D(p)， 然 后 应 用 
等 式 (11-6) 构造 IMOD+(p)。 

我 们 利用 一 个 在 绪 定 图 上 的 简单 标记 算法 来 构造 RMM0D(p)， 这 个 算法 中 ， 绑 定 图 中 每 个 结 
点 都 附加 用 一 个 位 实现 的 逻辑 标记 。 最 初 ， 所 有 这 些 逻 辑 标 记 都 为 假 ， 然 后 对 于 任何 过 程 p， 
对 于 在 IM0D(p) 中 的 p 的 任何 形式 参数 的 标记 被 置 为 真 。 为 真 的 位 会 在 图 中 传播 ， 规则 是 形式 
参数 族 被 绑 定 到 标记 为 真 的 形式 参数 户 上 ,万 的 标记 也 会 被 置 为 真 。 当 不 再 有 传播 发 生 时 ， 
RMOD(p) 就 是 p 中 所 有 标记 为 真 的 形式 参数 的 集合 。 算 法 在 图 11-2 中 给 出 。 


procedure computeRmod(P, Ng, Eg, IMOD, proc, RMOD) 


1/ P 包 含 程序 中 的 所 有 过 程 
/ Ne 包含 绑 定 图 中 所 有 的 形式 参数 
// 碟 包 含 绑 定 图 中 所 有 的 边 
H mark[ 有 是 从 形式 参数 到 它们 的 标记 值 的 映射 
/proc[ 朋 是 从 参数 到 它 所 属 的 过 程 的 映射 
// IMODIp] 是 从 一 个 过 程 到 它 的 直达 修改 副作用 集 的 映射 
// RMOD[p] 包 含 所 有 的 输出 集合 
ll worklist 是 形式 参数 的 一 个 工作 和 集 
: for each f E Ns do mark[f] :=false; 
worklist := Ø; 
: foreach fE Nes， 使 得 FE IMOD[proc[f]] do begin 
mark[f] : = true; 
worklist :=worklist U {f}; 
end 
: while worklist + Ø do begin 
fi= worklist 中 的 任 一 元 素 ; 
worklist := worklist — {f}; 
for each 满 足 (v, f) E Es 的 v do begin 
if mark{v] =false then begin 
mark[v] : = true; 





图 11-2 构造 RM0D 集 合 的 算法 
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worklist : = worklist U {v}; 
end 
end 
end 


Ls: for each p E€ P do RMOD[p] :=@; 
Le: for each f E N; do 

if mark{f] then RMODIprec[f]}] := RMOD{proclf]] U {7}; 
end computeRmod 





图 11-2 (8%) 


正确 性 : 为 了 证 明 图 11-2 中 的 算法 computeRmod 能 正确 计算 RM0D 集 ， 我 们 必须 证 明 在 这 个 
算法 的 出 口 处 ，fE RMOD[proc[ 用 ] 当 且 仅 当 / 可 能 被 过 程 p =proc[ 甩 的 调用 副作用 所 修改 。 

充分 性 : 假设 /可 能 被 修改 ， 则 必然 是 以 下 两 种 情况 之 一 : (1) 在 某 个 以 它 为 参数 的 过 程 
中 被 修改 ， 在 这 种 情况 下 ， 它 将 在 语句 S, 处 被 标记 为 真 。(2) 绑 定 图 上 有 一 条 从 参数 /到达 形 
式 参 数 有 的 路 径 ， 且 玉 在 IMOD[proc[h]] 中 。 这 样 ，f 就 被 标记 为 真 并 且 加 到 循环 LI 的 worklist 中 。 
Bh=fa frais …, Jo 及 表示 缆 定 图 上 从 f 天 有 的 路 径 上 的 参数 的 序列 。 假 设 f= 所 永远 不 会 被 标记 为 
真 。 那 么 必定 存在 一 个 最 小 的 k， 使 得 肯定 不 会 被 本 算法 标记 为 真 而 有 -1 被 标记 为 真 。 但 是 ， 
由 于 当 f 有 -1 被 标记 为 真 时 它 被 加 入 到 worklist， 在 它 最 终 被 从 worklist 中 删除 时 ， 每 条 进入 fi 的 
边 都 会 被 检查 ， 这 时 必定 被 标记 为 真 ， 与 前 面 假 设 巴 盾 。 所 以 ， 每 个 可 能 被 作为 调用 proc[ 有 
的 副作用 修改 的 参数 都 被 放 入 RMOD[proc[ 有 1]。 

必要 性 : 假设 /是 一 个 标记 被 置 为 真 的 参数 ， 却 没有 被 修改 。 在 算法 中 ， 只 把 那些 在 过 程 
体 中 被 修改 的 形式 参数 或 在 绑 定 图 中 存在 到 达 在 其 过 程 中 修改 的 另 一 参数 的 一 条 路 径 的 形式 
参数 ， 其 标记 被 置 为 真 。 由 于 只 有 当 相 应 的 过 程 调用 可 能 发 生 时 ， 绑 定 图 中 才 会 有 一 条 边 ， 
所 以 必定 是 原 参 数 / 柯 能 被 修改 了 。 

SRE ”算法 computeRmod 在 最 差 的 情况 下 将 执行 OCW+E) 步 ， 其 中 N 和 天 分 别 代 表 调 用 
图 中 的 结 点 和 边 的 数目 。 这 是 因为 它 的 执行 时 间 和 绑 定 图 的 大 小 成 比例 。 令 Ne 和 有 分 别 表示 
绑 定 图 中 的 结 点 和 边 的 数目 。 从 前 面 的 讨论 中 ， 我 们 知道 Neg uN 有 Es < HE. 

剩 下 的 问题 是 要 证 明 算法 运行 的 时 间 和 绑 定 图 的 大 小 成 比例 。 这 样 我 们 就 可 以 证 明 以 上 
的 结果 。 很 明显 ， 循 环 疡 需要 Ne 步 。 假 设 IMOD 被 实现 为 这 样 一 种 形式 ， 使 我 们 可 以 在 常数 时 
间 ( 即 通过 一 个 位 向 量 ) 检测 某 个 元 素 是 否 为 它 的 成 员 ， 那 么 循环 2 也 需要 Ne 步 。 循 环 L5 所 
需 的 时 间 和 程序 中 的 过 程 数 与 初始 化 RMOD 集 的 时 间 的 乘积 成 比例 。 如 果 这 些 集合 都 实现 为 
长 度 为 K 的 位 向 量 ， 则 这 个 循环 需要 的 时 间 为 O(VNs)。 假 设 向 RMOD 中 添加 元 素 需 要 常数 时 间 ， 
那么 循环 L6 需 要 O(Ns) 的 时 间 ， 因 为 它 将 用 一 个 位 向 量 实现 。 

所 以 ， 问 题 的 关键 是 循环 L3 和 所 需要 的 运行 时 间 。 如 果 我 们 假设 其 中 的 workiist 是 以 链 
表 的 形式 实现 的 ， 这 样 从 前 端 取 任意 一 个 元 素 所 需要 的 时 间 是 常数 ， 那 么 循环 体 的 执行 次 数 
不 会 多 于 Ns 次 ， 因 为 每 个 结 点 至 多 只 会 被 放 入 worklist 中 一 次 。 如 果 我 们 假设 像 在 拓 提 排序 算 
法 中 那样 ， 边 是 以 前 趋 表 的 形式 排列 的 ， 从 而 特定 结 点 的 所 有 前 趋 可 以 在 和 前 趋 数目 成 比例 
的 时 间 内 找到 。 这 样 ， 循 环 体 对 程序 中 每 个 结 点 的 每 个 前 趋 执行 一 次 ， 总 共 Es 次 。 

这 样 我 们 已 经 证 明了 在 最 坏 的 情况 下 ， 算 法 需要 O(Ns 十 Es)=ON+E) 步 。 

为 了 把 RM0D 扩 展 为 IM0D+ ， 我 们 需要 访问 程序 中 每 个 调用 点 和 调用 点 处 的 每 个 参数 ， 来 确 
定 这 个 参数 是 否 被 绑 定 到 被 调用 过 程 p 的 RM0D(p) 集中 的 一 个 变量 上 。 如 果 RM00 集 是 用 位 向 量 
的 形式 表示 的 ， 那 么 这 个 确定 的 过 程 需要 常数 时 间 ， 所 以 转换 到 INM0D+ 的 过 程 也 需要 O(N+ 
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的 时 间 。 这 里 假设 IM0D+ 可 以 在 O(N+E) 的 时 间 内 被 初始 化 。 如 果 IM0D+(p) 是 用 一 个 位 向 量 
表示 的 ， 那 么 这 个 位 向 量 的 长 度 必然 和 程序 中 爹 局 变量 的 个 数 V 加 上 p 的 形式 参数 个 数 的 和 成 
比例 。 由 于 此 种 形式 参数 的 个 数 小 于 kx， 因此 为 每 个 过 程 初始 化 位 向 量 的 时 间 是 O(V++ u) = 
O(V)。 由 二 这些 工作 对 每 个 过 程 只 做 一 次 ， 所 以 初始 化 时 间 是 O(NV)。 这 样 ， 如 果 包 含 初始 
化 的 时 间 ，IM0D+ 的 计算 需要 OCNV+E) 的 时 间 。 

计算 GMOD 

一 旦 为 程序 中 的 每 个 过 程 p 构 造 了 IM0D+(p) 集 ， 我 们 必须 按照 等 式 (11-5) 用 它 来 计算 
GMOD(p)， 这 里 我 们 重复 写 出 这 个 公式 : 

GMOD(p) = IMOD* (p) U ,USMOD(9) NM ”LOCAL 


这 个 等 式 的 含义 是 : 如 果 一 个 变量 x 在 IMOD*(p) 中 ,或 者 x 是 全 局 变量 且 调用 图 中 存在 一 条 从 p 
到 另 一 过 程 q 的 非 空 路 径 (其 中 x E IMOD+(q))， 那 么 这 个 变量 在 6M0D(p) 集中 。 换 句 话说 ,我 
们 把 这 个 问题 归结 为 调用 图 中 可 达 性 问题 的 一 个 变形 。 众 所 周知 ， 使 用 深度 优先 搜索 算法 
(这 个 算法 是 基于 Tarjan 的 找 有 向 图 中 的 强 连 通 分 量 算法 的 ) 可 以 在 程序 大 小 的 线性 时 间 内 求 
解 可 达 性 问题 。 图 11-3 中 的 算法 findGmod 就 是 这 样 算法 的 一 个 实现 。 


procedure findGmod(N, E, n, IMOD*t, LOCAL) 
integer dfn[n), lowlink[n], nexdfn, p, q, d, 
IMOD* {n}, GMODI[n], LOCAL; 
integer stack Stack; 
procedure search(p); 
dfnlp] := nexdfn; nexdfn := nexdfn+ 1; 
GMODIp] :=IMOD* [p]; lowlink[p] := dfn{p]; 
Jp He A Stack; 
for each 与 ?邻接 的 g do begin 
if dfn[g] = 0 then begin // 树 的 边 
search(q); 
lowlink[p} : = min(lowlink{p], lowlink(q]); 
end 
if dfnlg] <dfnlp] and q € Stack then 
lowlink[p] := min(dfn[q], lowlink[q}); 
else // 应 用 等 式 


GMOD{[p] :=GMODI[p] U (GMOD[el N ALOCAL); 
end 
1/ 检查 是 否 为 强 连通 分 量 的 根 
if lowlink[p] = dfn[p] then begin 
/ 对 强 连通 分 量 的 每 个 成 员 调 整 GMOD 集 合 


repeat 
从 Stack 弹 出 u; 
LOCAL[u] := LOCAL[u] U (LOCAL{p] N ALOCAL); 
until «=p 
end 
end search; 
/ 子 程序 体 
nexdfn := 1; dfn[*] :=0; Stack=@; 
search(1); // 约定 root=1 
end findGmod 


图 11-3 全 局 修改 副作用 传播 的 算法 
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SAE ”由 于 这 个 算法 是 深度 优先 遍历 算法 的 一 个 直接 改写 形式 ， 所 以 它 需要 运行 O(N + E) 
步 ， 其 中 每 一 步 都 涉及 到 一 个 长 度 为 V 的 位 向 量 操作 ，V 表 示 程 序 中 变量 的 数目 。 这 样 ， 算 法 在 
最 坏 的 情况 下 需要 O((N+ EDV) THAD R. 

正确 性 ”我们 现在 来 证 明 图 11-3 中 的 算法 findGmod 能 正确 地 计算 程序 中 每 个 过 程 p 的 
GMOD(p) 集 。 这 个 算法 是 Tarjan 的 寻找 强 连通 分 量 算法 的 一 个 直接 改写 形式 。 但 是 ， 当 算法 沿 
调用 顺序 的 逆序 回 退 时 ， 它 不 是 在 收集 强 连 通 区 域 的 集合 ， 而 是 在 更 新 每 个 结 点 处 6M0D(C) 的 
计算 。 当 到 达 一 个 强 连通 分 量 的 头 结 点 处 ， 算 法 会 更 新 这 个 分 量 中 每 个 x 的 6M0D(z) 集 ， 把 头 
结 点 的 6M0D 集 中 的 非 局 部 部 分 加 入 其 中 。 这 样 ， 一 个 强 连通 分 量 中 每 个 过 程 4 的 6M0D(4) 的 全 
局 部 分 是 相同 的 ， 它 们 本 该 如 此 。 这 样 ， 由 于 遍历 顺序 本 身 的 特点 ， 可 以 保证 不 华人 循 环 中 的 
结 点 的 GM0D 集 是 正确 的 ， 而 由 于 算法 会 对 环 中 所 有 过 程 的 G6M0D 集 进行 更 新 ， 所 以 循环 中 的 节 
点 的 GM0D 集 也 是 正确 的 。 

把 本 节 的 结果 和 前 一 节 的 结果 综合 起 来 可 以 证 明 整 个 计算 可 以 在 O(CV+ 司 凡 RATER. 
由 于 DMOD 可 以 在 O(NV+E) 的 时 间 内 由 6M0D 计 算得 到 ， 所 以 DM0D 的 完整 的 计算 需要 OC((N + E)V) 
步 。 这 也 是 最 好 的 可 能 时 间 上 界 ， 由 于 我 们 必须 在 调用 图 的 每 个 结 点 处 至 少 计 算 一 次 等 式 
(11-5)， 这 就 需要 O((N+ 司 风 的 时 间 。 


11.2.4 流 不 敏感 别名 分 析 
前 面 讲述 的 是 不 涉及 到 别名 的 副作用 分 析 ， 下 面 我 们 转 而 讨论 别名 分 析 问 题 以 及 如 何 将 
它 集成 到 常规 的 副作用 问题 算法 中 。 
将 DMOD 更 新 为 MOD 
计算 了 直接 修改 副作用 集 后 ， 剩 余 的 问题 是 如 何 将 别名 因素 考虑 在 内 。 我 们 用 一 个 具有 
以 下 三 个 过 程 例 子 来 说 明 这 个 问题 : 
SUBROUTINE P 
INTEGER A 
So CALL S(A,A) 
END 
SUBROUTINE S(X,Y) 
INTEGER X, Y 
Sı CALL Q(X) 
END 
SUBROUTINE Q(Z) 
INTEGER Z 
Z=0 
END 
我 们 感 兴趣 的 是 计算 集合 MOD(S;)。 至 今 的 分 析 结果 告诉 我 们 6MOD(Q)={Z} ， 这 个 结果 被 
向 后 转移 到 调用 点 $; 后 得 到 DMOD(S1)={X}。 但 是 为 了 真正 确定 哪些 变量 将 在 $1 处 被 修改 ， 我 们 
还 必须 知道 由 于 5o 处 调用 5 时 把 同一 个 变量 传 给 两 个 参数 ， 所 以 在 51 处 X 能 够 成 为 ?的 别名 。 通 
过 这 些 别 名 信息 我 们 得 到 MOD(S1)={X,Y}。 
回忆 一 下 等 式 (11-2) 中 的 公式 ， 我 们 重复 写 在 下 面 : 
MOD() = DMOD(s) _W,, UALIAS(p, x) 


xEDMOD(s 


11-4 给 出 实现 这 个 转换 的 一 个 很 自然 的 算法 。 我 们 分 析 一 下 这 个 循环 嵌 套 的 复杂 度 。 循 环 恬 
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执行 O(E) 时 间 ， 其 中 表示 调用 图 中 的 边 的 数目 。 语 名 S$: 处 的 赋值 所 用 的 时 间 和 位 向 量 的 长 度 
成 比例 ， 或 者 说 需要 O(V) 步 ， 其 中 V 是 程序 中 变量 的 数目 。 由 于 这 个 语句 执行 O(E) 时 间 ， 耗 
费 在 这 个 语句 上 的 执行 时 间 是 O(EW。 在 乙 的 每 次 选 代 中 ， 疡 会 对 DM0D(G) 中 的 每 个 变量 执行 一 
次 。 由 于 这 在 根本 上 处 理 所 有 变量 O( 信 ， 所 以 这 个 循环 总 计 会 进入 O(EJ 次 。 最 后 ， 姜 被 进入 
OEV) 次 ， 且 逐次 对 ALIAS(p, x) 中 的 每 个 变量 执行 一 次 迭代 。 如 果 我 们 假设 ALIAS(p, x) 可 能 
包含 程序 中 的 每 个 变量 ， 那 么 这 个 循环 体 将 被 执行 O(EV?) 次 。 最 后 ， 如 果 我 们 采用 位 向 量 形 
式 的 实现 ， 语 句 5; 需 要 常数 时 间 。 这 样 这 个 更 新 过 程 的 总 的 运行 时 间 为 O(EV?)。 


procedure findMod(N, E, DMOD, ALIAS, MOD) 
L: for each 调 用 点 s do begin 

MODI[s] : = DMOD[s]; 

for each x € DMOD{[s] do 


for each v E ALIAS[p, x] do 
MOD{[s} :=MODjs] U {+}; 


end 
end findMod 





图 11-4 由 DMOD 的 简单 别名 更 新 产生 MOD 


如 果 我 们 不 改善 别名 分 析 的 运行 时 间 ， 那 么 它 将 占用 整个 副作用 分 析 的 绝 大 部 分 时 间 ， 这 
样 我 们 就 不 能 在 重要 的 别名 模式 的 程序 中 使 用 这 个 算法 。 但 是 ， 如 果 给 可 能 发 生 的 别名 模式 
仔细 分 类 ， 我 们 可 以 大 大 改善 这 个 算法 。 首 先 ， 我 们 注意 到 ， 在 一 个 只 包含 全 局 变量 和 局 部 
变量 的 两 级 命名 层次 结构 中 ， 两 个 全 局 变量 之 间 绝 不 会 互相 成 为 别名 。 它 们 只 可 能 是 引用 形 
式 参数 的 别名 。 这 样 ， 一 个 全 局 变量 x 的 ALIAS(p, x) 只 可 能 包含 过 程 p 的 引用 的 形式 参数 。 这 
意味 着 ALIAS(p, x*) 中 的 元 素 不 可 能 多 于 4 项 ， 其 中 4 是 程序 中 任何 过 程 的 形式 参数 的 最 大 数目 。 

另 一 方面 ， 对 于 过 程 p 一 个 给 定 的 形式 参数 /，ALIAS(p, 内 可 能 包含 任何 全 局 变量 或 任何 其 
他 的 形式 参数 ， 所 以 它 的 大 小 可 能 为 O(V)。 

从 这 些 观 察 讯 息 中 ， 我 们 知道 我 们 应 当 把 从 DMOD 到 MOD 的 更 新 分 为 两 类 : 一 类 是 针对 
形式 参数 的 ， 另 一 类 是 针对 全 局 变量 的 。 当 考虑 一 个 给 定 变量 x E DMOD(s) 的 别名 时 : 

(1) 如 果 x 是 一 个 全 局 变量 ， 我 们 将 把 一 个 很 小 的 集合 (<u) 加 入 到 MOD(s) H, 
但 是 我 们 可 能 需要 加 入 O(V) 次 ; 

(2) 如 果 x 是 包含 ;的 过 程 p 的 一 个 形式 参数 ， 我 们 需要 把 可 能 多 达 O(V) 个 的 元 素 加 入 
MOD(s) 中 ， 但 我 们 只 需要 加 入 很 少 的 次 数 〔( < 4 次 )。 

在 这 两 种 情况 下 ， 工 作 量 都 是 O(m 而 不 是 O(V)。 完 整 的 算法 在 图 11-5 中 给 出 。 

通过 前 面 的 讨论 应 当 清 楚 ， 图 11-5 中 的 合并 策略 对 于 每 个 调用 点 的 金 部 运行 时 间 是 O(V)， 
总 的 运行 时 间 是 O(EW。 这 就 意味 着 如 果 我 们 能 在 OCN+E)V) 时 间 内 计算 得 到 ALIAS 集 ， 那 
么 整个 MOD 集 计算 的 时 间 上 界 就 是 O(N 二 EV)。 

计算 别名 . 

我 们 下 面 将 集中 讨论 为 每 个 过 程 p 计 算 ALIAS(p, x) 集 的 问题 ， 其 中 变量 x 是 全 局 变量 或 某 
个 过 程 的 参数 。 为 了 尽快 计算 出 结果 ， 我 们 再 一 次 利用 全 局 变量 只 可 能 是 形式 参数 的 别名 这 
个 观察 结果 。 首 先 ， 我 们 为 程序 中 每 个 形式 参数 计算 一 个 中 间 量 4(00 ， 它 定义 全 局 变量 的 一 个 
集合 ， 这 些 全 局 变量 通过 绑 定 图 上 如 下 一 系列 参数 绑 定 可 能 成 为 形式 参数 /的 别名 : 
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procedure updateMODwithAlias 


for each 程 序 中 的 调用 点 s do 
t:=Ø; 1 十 一 个 长 度 为 /的 临时 位 问 量 
for each 全 局 变量 x E DMOD(s) do AH/ OCV) RIKER 
ti=rU {x}; / 常数 时 间 
t:=t U ALIAS[p, x]; // O(W) 时 间 


end 

MODI{s] :=MOD[s] U t; HOW) 时 间 

for each 形 式 参 数 fE DMOD(s) do begin // O(4) 次 迭代 
MOD(s) : = MOD(s) U {f}; // 常数 时 间 
MOD(s) := MOD(s) U ALIAS(p, f), // OCV) 时 间 

end 

end 
end updateMODwithAlias 





图 11-5 副作用 和 别名 信息 的 快速 合并 


Sr for fir he hei chi =f 
为 了 计算 4(D， 我 们 将 在 绑 定 图 的 变形 形式 上 进行 前 向 传播 ， 其 中 绑 定 图 的 变形 形式 是 指 
将 绑 定 图 中 的 环 归 约 成 一 个 结 点 。 注 意 ，4(J 是 ALIAS(p, 内 的 近似 ， 包 含 其 中 的 所 有 全 局 变 
量 。 为 程序 中 每 个 形式 参数 计算 40) 的 算法 在 图 11-6 中 给 出 。 在 这 个 算法 中 ， 集 合 4(P 表 示 为 
一 个 长 度 为 O(P 的 位 向 量 。 


procedure computeA(N, E, Ng, Eg, A) 
for each A Z% E Nz do A[f] : =Ø; 
for each 调 用 点 s € N do begin 
for each 在 * 处 映射 到 形式 参数 /的 全 局 量 8 do 
AI]: =AL/U {3}; 
end 


将 绑 定 图 中 每 个 环 用 一 个 单独 的 结 点 替换 ， 将 图 归 约 为 一 个 有 向 无 环 图 的 形式 ; 


for each 归 约 图 中 依 拓扑 顺序 出 现 的 f do 


ALfl:= ALIU YY ALK ; 


(fo SEB 
for each 原 来 绑 定 图 中 的 环 do begin 
令 C 是 归 约 的 绑 定 图 中 代表 这 个 环 的 结 点 ; 
for each f EC do A[f] := AIC]; 
end 
end computeA 





图 11-6 计算 形式 参数 的 近似 别名 集 的 算法 


容易 看 出 ， 最 坏 的 情况 下 算法 的 前 向 传播 阶段 需要 O(NW 步 ， 更 新 环 中 这 些 集合 也 需要 
ONV) 步 。 

一 旦 我 们 得 到 了 程序 中 每 个 形式 参数 的 40) 集 ， 就 能 通过 一 个 简单 的 反 演变 换 得 到 每 个 
全 局 变量 的 别名 集合 ， 算 法 在 图 11-7 中 给 出 。 这 个 计算 可 以 分 成 两 个 部 分 : 初始 化 别名 集合 
和 计算 这 个 变换 。 前 面 提 和 到 ， 我 们 可 以 把 给 定 过 程 中 的 一 个 全 局 变量 的 别名 集合 表示 为 长 度 
为 的 位 向 量 。 所 以 ， 图 11-7 中 步骤 5 的 初始 化 过 程 不 超过 OCNVK) = O(NV) 步 。 然 而 ， 因 为 一 
次 更 新 可 在 常数 时 间 内 完成 ， 所 以 语句 Si 处 的 更 新 动作 的 总 的 开销 也 是 O(VV)。 
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procedure computeAlias 


for each 过 程 p do 
for each 全 局 变量 g do 
So: ALIAS[p, g] : =Ø; 
for each 程 序 中 的 形式 参数 / do begin 
令 p 是 声明 形式 参数 /的 过 程 ; 
for each g E€ A[f] do 
Si: ALIASIp, g] := ALIAS[p, g] U {f}; 
end 


end computeAlias 





图 11-7 变形 为 计算 每 个 全 局 变量 g 的 ALIAS(g) 


剩余 的 工作 就 是 计算 形式 参数 的 别名 。 注 意 ，4W) 是 ALIAS(p, N 的 近似 ， 它 包含 所 有 为 f 
别名 的 多 局 变量 。 要 把 40) 扩展 到 ALIAS(p, 有 ， 我 们 只 需要 把 可 能 为 1 别名 的 形式 参数 加 入 
ALIAS(p, 有 。 在 我 们 考虑 的 简单 的 两 层 结 构 语言 中 ， 只 有 同一 过 程 的 其 他 形式 参数 可 能 为 = 的 
别名 。 这 样 ， 在 任何 给 定 的 过 程 中 ， 可 能 的 形式 参数 对 不 会 多 于 MU+ 1)/2。 

为 了 计算 可 能 为 其 他 形式 参数 别名 的 形式 参数 ， 图 11-8 中 的 算法 computePairs 跟 踪 给 定 过 
程 p 中 可 能 互 为 形式 参数 别名 的 形式 参数 对 的 集合 FPAIRS(p)。 我 们 首先 把 所 有 FPAIRS 集 合 初 
始 化 为 空 ， 然 后 检查 每 个 调用 点 ， 察 看 是 否 有 通过 把 同一 变量 传递 给 两 个 不 同 的 参数 而 引入 
的 别名 。 一 旦 发 现 这 样 的 情况 ， 我 们 就 把 别名 的 形式 参数 对 加 入 工作 表 。 接 下 来 ,我 们 在 工 
作 表 上 和 迭代 ， 以 查找 可 能 的 别名 传播 ， 这 些 传播 是 由 于 两 个 可 能 互 为 别名 的 参数 都 被 传递 到 
同一 个 过 程 中 而 引起 的 。 如 果 被 调用 过 程 中 的 相应 的 参数 对 不 在 FPAIRS 集 中 ， 那 么 我 们 将 把 
这 个 参数 对 加 入 工作 表 。 这 个 过 程 将 持续 到 工作 表 为 空 。 


procedure computePairs 
W:=@; 
Li: for each 程 序 中 的 过 程 p do FPAIRS[p] := ©; 
z for each 别 名 的 引入 点 (例如 ，“CALL P(X, X)”) do 

将 因此 得 到 的 形式 参数 对 加 入 到 FPAIRS[p] 中 和 工作 表 W 中 
L;: while W+@ do begin 

从 办 中 删除 <A, >; 
Ly for each 过 程 p 中 同时 传递 和 的 调用 点 s do begin; 

令 g 是 s 处 调用 的 过 程 ; 


这 和 /在 s 处 被 传递 给 有 和 fs and 
<f,f> £ FPAIRS[q] then begin 
FPAIRS[q] :=FPAIRS[q] U {<f h>] 
W:=WU{<f,h>)}; 

end 


end 
end 


end computePairs 





图 11-8 计算 可 能 互 为 别名 的 形式 参数 对 的 算法 
让 我 们 分 析 一 下 算法 computePairs 的 运行 时 间 。 注 意 在 任何 子 程序 中 参数 对 的 数目 不 会 超 
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过 Au+ 1)/2。 由 于 对 每 个 过 程 的 初始 化 都 只 需要 常数 时 间 ， 所 以 循环 六 的 初始 化 过 程 需要 
ON) 步 。 循 环 L, 需 要 察看 每 个 调用 点 ， 所 以 需要 的 时 间 为 O(E), 但 是 如 果 我 们 假设 W 和 
FPAIRS 都 是 用 某 种 链表 结构 实现 的 ， 那 么 所 有 的 集合 操作 需要 的 是 常数 时 间 。 对 于 每 个 被 放 
到 工作 表 的 参数 对 ， 循 环 L; 都 会 被 执行 一 次 。 由 于 每 个 调用 点 最 多 只 有 (K+ 1)/2 个 参数 对 ， 
所 有 Ls 的 总 的 迭代 次 数 小 于 或 等 于 K(4+ 1)N/2 次 ， 故 进入 L 的 次 数 为 O(N)。 同 样 ， 程 序 中 的 每 
个 调用 点 被 检查 的 次 数 不 会 超过 4(4+ 1)/2 次 ， 所 以 进入 循环 LO(E) 次 。 由 于 循环 六 的 循环 体 
的 执行 需要 常数 时 间 ， 所 以 整个 过 程 需要 的 时 间 为 O(N 二 EE)。 

这 样 ， 我 们 证 明了 这 个 别名 分 析 算 法 可 以 在 O((N+E)V) 的 时 间 内 完成 ， 这 就 意味 着 整个 

MOD 求解 可 以 在 这 个 时 间 内 完成 。 
11.2.5 常数 传播 
571 常数 传播 是 一 个 可 以 提高 很 多 类 优化 性 能 的 重要 数据 流 分 析 问题 [127][136]。 可 惜 即使 在 
573| 单独 的 一 个 过 程 中 ， 此 问题 也 难于 解决 ， 因 为 得 到 这 个 问题 的 精确 解 被 证 明 是 不 可 能 的 [165]。 
即使 通常 的 单 过 程 近似 问题 在 过 程 间 的 范畴 中 也 是 流 敏感 的 ， 因 而 也 是 很 难 解决 的 [220]。 

造成 这 些 困难 的 一 个 重要 原因 是 : 当 常 数 传播 到 一 个 程序 区 域内 时 ， 这 个 程序 区 域 中 的 
相关 表达 式 可 能 会 被 计算 ， 从 而 在 出 口 处 得 到 新 的 常数 。 下 面 例子 可 以 说 明 过 程 间 的 情况 : 

SUBROUTINE PHASE(N) 

INTEGER N, A, B 
CALL INIT(A, B, N) 
CALL PROCESS (A,B) 
END 
SUBROUTINE INIT(A, B, N) 
INTEGER A, B, N 
A = N+1 
B = (N*A)/2 

END 

子 程序 INIT 的 目的 是 初始 化 变量 A 和 B。 所 以 ， 如 果 在 过 程 PHASE 的 入 口 处 N 是 常数 10， 则 
在 INIT 的 出 口 处 A 是 常数 11，B 是 常数 55。 因 此 ， 这 些 常 数值 在 PROCESS 的 入 口 处 也 是 有 效 的 。 
本 节 将 会 介绍 一 种 确定 这 些 事实 的 方法 。 

单 过 程 中 的 常数 传播 算法 已 在 4.4.3 节 中 介绍 。 这 个 算法 在 图 4-5 中 给 出 ， 它 在 定义 -使 用 
图 或 静态 单 赋值 (SSA) 式 [96] 上 运用 一 个 迭代 过 程 。 因 为 这 个 迭代 的 过 程 是 基于 图 4-4 中 所 
示 的 常数 传播 格 ， 所 以 它 保证 是 收敛 的 。 而 且 ， 这 个 算法 相对 于 问题 所 在 的 图 的 大 小 来 说 是 
线性 的 ， 因 为 一 条 指令 最 多 使 它 的 输出 值 在 格 中 的 位 置 下 降 两 次 ， 所 以 ， 它 也 最 多 被 放 入 工 
作 表 两 次 。 

我 们 的 策略 是 开发 一 个 和 渤 代 单 过 程 常数 传播 过 程 类 似 的 过 程 间 方案 。 事 实 上 ， 我 们 希 
望 仍然 能 使 用 相同 的 算法 ， 但 是 算法 所 基于 的 图 不 同 于 前 面 提 到 的 定义 -使 用 图 ， 我 们 称 这 个 
过 程 间 方 案 中 用 到 的 图 为 过 程 间 值 传 播 图 。 在 这 种 图 中 ， 结 点 代表 “ 跳 转 函 数 ”， 它 根据 进入 
一 个 过 程 时 的 已 知 值 计算 离开 给 定 过 程 时 的 值 。 跳 转 函 数 类 似 于 过 程 内 和 过 程 间 区 间 分 析 中 
的 “传递 函数 ”[131]。 

令 s 是 过 程 p 内 的 一 个 过 程 调用 点 ，x 是 s 处 所 调用 的 过 程 q 的 形式 参数 。x 在 s 处 的 跳 转 函数 
标记 为 天 ， 它 根据 包含 s 的 过 程 z 的 输入 值 来 决定 xz 的 值 。/ 的 支持 全 是 指 在 计算 天 时 实际 使 用 的 

Ga) 输入 的 集合 。 跳 转 函数 可 以 通过 检查 程序 中 单独 过 程 的 预备 阶段 计算 。 
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现在 ， 我 们 回 到 过 程 间 值 传播 图 的 构造 上 来 。 下 面 是 构造 过 程 间 值 传播 图 的 步 又: 

(1) 为 每 个 前 向 跳 转 函 数 记 构造 一 个 结 点 。 

(2) 如 果 x Esupport( 肪 ， 其 中 惠 在 s 处 被 调用 的 过 程 内 的 一 个 调用 点 ， 那 么 构造 一 条 从 斑 
到 有 的 边 。 
迭代 常数 传播 算法 可 以 应 用 到 由 以 上 步 又 得 到 的 图 上 。 

我 们 现在 给 出 这 个 过 程 的 一 个 简单 例子 。 考 虑 图 11-9 所 示 的 程序 。 我 们 从 这 个 例子 容易 
导出 跳 转 函 数 

J =}; Ji = 
JY +; = 人 -分 


相应 的 调用 图 和 得 到 的 过 程 间 值 传播 图 在 图 11-10 中 给 出 。 


PROGRAM MAIN 
INTEGER A,B 
A=1 
B=2 
CALL S(A,B) 

END 

SUBROUTINE S(X,Y) 


INTEGER X,Y,Z,W 
Z=X+Y 
W=X-~Y 

CALL T(Z,W) 

END 

SUBROUTINE TCU,V) 
PRINT U, V 

END 





图 11-9 过 程 间 常数 传播 的 例子 
容易 看 出 把 常数 传播 算法 应 用 到 图 11-10 中 的 过 程 间 值 传播 图 会 很 快 收敛 到 如 下 常数 赋值 : 


X=1; Y=2;U=3; V=—-1; 
为 了 估计 这 个 算法 的 总 开销 ， 回 忆 一 下 ， (un) O (x) 
如 果 跳 转 函 数 的 计算 可 以 在 常数 时 间 内 完成 ， a: A> > 


那么 本 算法 所 基于 的 迭代 常数 传播 算法 的 开 
销 是 和 图 的 结 点 和 边 的 数目 成 比例 的 。 但 是 ， 人 


我 们 不 可 能 期 望 所 有 的 跳 转 函 数 都 能 在 常数 BZU Ca) 
时 间 内 计算 得 到 ， 因 为 ， 正 如 我 们 将 看 到 的 ， Woy 
构造 跳 转 函 数 的 不 同 策略 会 得 到 不 同 执行 开 G) 
销 的 函数 。 

因此 ， 我 们 必须 讨论 跳 转 函数 被 计算 的 调用 图 过 程 间 值 传播 图 
次 数 。 一 个 跳 转 函数 /有 support(J) 个 输入 ， 图 11-10 过 程 间 值 传播 图 的 例子 


每 个 输入 最 多 在 格 中 被 降低 两 次 。 这 样 一 个 
跳 转 函数 /被 计算 的 次 数 不 会 超过 O(UlswpportDD 次 。 令 cost(7) ARPT AR BRITE, BB 
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么 每 个 跳 转 函 数 的 执行 的 总 开销 为 O(lsupportJ)lLcostJ))。 所 以 ， 执 行 过 程 间 常数 传播 算法 的 
总 开销 为 


ol > 5 |support( J) cost(J? | (11-7) 


其 中 s 的 范围 是 程序 中 所 有 的 调用 点 ，x 的 范围 是 对 应 子 程 序 的 输入 参数 。 


构造 跳 转 函数 

跳 转 函数 会 因 近似 估计 的 精确 度 和 开销 的 不 同 而 有 很 大 不 同 。 在 复杂 的 情况 下 ， 一 个 跳 
转 国 数 可 能 会 对 它 所 处 理 的 过 程 应 用 完全 的 符号 翻译 。 但 是 ,在 简单 的 情况 下 ， 它 也 可 以 只 
计算 通过 子 程序 的 每 条 路 径 上 且 不 包含 在 任何 循环 中 的 赋值 。 这 种 情况 下 ， 只 在 子 过 程 的 部 
分 路 径 上 或 在 循环 内 被 赋值 的 变量 将 得 到 常数 格 中 的 1 ( 底 ) 值 。 

一 个 主要 的 问题 是 如 何 为 一 个 过 程 体 有 函数 调用 的 过 程 构造 跳 转 函 数 。 沽 虑 图 11-11 给 出 
的 例子 。 为 了 在 调用 点 ?为 T 构 造 跳 转 函数 ， 我 们 必须 知道 在 调用 点 有 处 调用 的 子 程序 INIT 的 行 
为 。 要 解决 这 个 问题 ， 我 们 定义 “返回 跳 转 函数 " ， 它 汇总 来 自 一 个 子 程序 在 用 一 组 特定 的 输 
入 调用 时 的 常数 传播 。 


PROGRAM MAIN 
INTEGER A 
a CALL PROCESS(15, A) 
PRINT A 
END 
SUBROUTINE PROCESS(N, B) 
INTEGER N, B, I 
CALL INIT(I, N) 
CALL SOLVE(B, I) 
RETURN 
END 
SUBROUTINE INIT(X, Y) 
INTEGER X, Y 


SUBROUTINE SOLVE(C, T) 
INTEGER C, T 
Cc =T * 10 
RETURN 

END 





图 11-11 一 个 复杂 的 过 程 间 常数 合并 的 例子 . 

如 果 x 是 过 程 p 的 一 个 输出 ， 返 回 跳 转 函数 应 决定 xz 在 对 p 的 一 次 调用 后 对 应 于 p 的 输入 参数 
的 值 的 返回 值 。& 的 支持 集 辐 前 向 跳 转 函数 的 相同 。 对 于 图 11-11 中 给 出 的 子 程序 INIT 简 单 情 
况 ， 我 们 有 返回 跳 转 国 数 

Ryn ={2* Y} 


而 对 于 过 程 SOLVE 的 情况 ， 我 们 有 
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Rouve ={T*10} 


我 们 可 以 把 返回 跳 转 函数 用 于 常数 传播 的 常规 跳 转 国 数 中 。 例 如 ， 调 用 点 ?处 的 跳 转 冰 数 
如 下 : 
J] = {fIEMOD(B) then RS(N) else undefined - const} 


其 中 ，undefined-cost 用 于 表示 对 那些 未 初始 化 的 变量 给 出 的 一 个 特定 值 。 为 了 完成 这 个 例子 
的 分 析 ， 我 们 给 出 剩余 的 跳 转 函数 : 
JS = {9and JY ={N} 


还 有 一 个 重要 的 跳 转 函数 没有 被 定义 ， 即 子 程序 PROCESS 的 返回 跳 转 函数 ， 它 对 于 决定 在 
主 程序 中 的 输出 语句 处 的 变量 A 能 否 被 一 个 常数 所 替换 是 十 分 重要 的 。 这 个 返回 跳 转 函数 必须 
调用 INIT 和 50LVE 的 返回 跳 转 函数 ， 但 是 ， 如 果 我 们 利用 前 向 跳 转 函数 来 决定 S50LVE 的 输入 形 
式 参 数 的 值 ， 那 么 就 会 自动 调用 INIT 的 返回 跳 转 函 数 。 这 个 返回 跳 转 函数 可 表示 为 : 
{if BE MOD(y) 
then Raves, (ND) 
else B} 
利用 这 些 跳 转 函数 ， 我 们 可 以 看 到 变量 A 在 过 程 PROCESS 出 口 处 的 值 由 

Ra oas = (2*(15))*10 = 300 


Grove 和 Torczon[127] 对 于 科学 计算 Fortran 程 序 的 研究 说 明 MOD 应 当 在 计算 跳 转 函 数 之 前 
计算 ， 并 且 也 应 当 在 执行 用 于 初始 化 过 程 间 常数 传播 的 一 个 全 局 常数 传播 之 前 计算 。 因 为 在 
任何 情况 下 ， 当 一 个 变量 不 在 给 定 调用 点 的 MOD 集 中 的 时 候 ， 返 回 跳 转 函 数 是 简单 的 恒等式 。 
在 这 种 情况 下 ， 返 回 跳 转 函 数 就 不 需要 了 ， 这 就 简化 了 作用 域 包 含 给 定 调用 点 的 同一 变量 的 
其 他 跳 转 函 数 的 构造 。 这 是 返回 跳 转 函数 最 简单 的 有 用 类 型 。 同 一 项 研究 还 证 实 

(1) 简单 跳 转 函数 几乎 能 得 到 科学 计算 Fortran 程 序 中 的 所 有 常数 ; 

(2) 返回 跳 转 函数 仅 在 很 少 的 情况 用 于 获得 新 常数 ， 但 是 使 用 这 些 函 数 的 代价 是 比较 高 的 。 


11.2.6 ”注销 分 析 

我 们 可 以 改变 用 于 解决 M0D 问 题 和 常数 传播 问题 的 一 些 思想 ， 以 此 来 解决 注销 问题 。 回 忆 
一 下 ,KILL(p) 是 所 有 必定 在 过 程 p 的 所 有 路 径 上 都 被 修改 的 变量 的 集合 。 为 了 在 算法 中 方便 
地 用 公式 表示 ， 我 们 将 计算 MKILLC)= KILL(p)， 这 是 没有 作为 调用 过 程 p 的 副作用 被 注销 的 
所 有 变量 的 集合 。 用 一 个 与 此 类 似 的 方法 可 以 计算 程序 中 每 个 过 程 p 的 USE(p)。 

让 我 们 首先 考虑 如 何 解 决 单个 过 程 的 风 ILL 问 题 。 对 于 每 个 扩展 的 基本 块 b 和 它 的 每 个 后 
继 c， 假 设 我 们 用 集合 THRU(b, c) Raitt HOM cWERRALAREANMA RE. BA, 
以 下 的 数据 流 方 程 组 可 以 用 来 解决 求 屎 ILL(b) 的 问题 : 

NKILL(b)= U THRU(C， c) ONKILL(c) (11-8) 


RE 


PROCESS 一 


如 果 e 是 过 程 的 出 口 结 点 ， 那 么 
NKILL(e) = Q (11-9) 
其 中 表示 所 有 变量 的 集合 。 这 个 方程 组 可 以 用 数据 流 分 析 的 简单 迭代 方法 求解 。 
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用 类 似 的 过 程 可 以 对 程序 中 每 个 过 程 计算 NKILL(p)。 首 先 ， 我们 需要 一 个 公式 来 计算 单个 
过 程 的 NKILL(p)。 这 个 公式 比 计算 单个 基本 块 的 公式 复杂 得 多 ， 因 为 它 依 赖 于 特定 过 程 的 控 
制 流 。 为 了 进行 这 样 的 计算 ,我们 首先 需要 构造 过 程 的 归 约 控制 流 图 Grwrev。Gmwwru 中 ， 每 个 结 点 
是 一 个 调用 点 、 过 程 的 入 口 结 点 或 出 口 结 点 。6rwu 中 的 每 条 边 (x, y) 上 标注 有 变量 的 THRU(x, y) 
集合 ， 表 示 在 从 x 到 y 的 不 包含 调用 点 的 某 条 路 径 上 没有 被 注销 的 所 有 变量 。 用 图 11-12 中 给 出 
的 算法 可 以 构造 Grwu。 


procedure ComputeReducedCFG(G) 


从 控制 流 图 G 中 删除 所 有 的 回 边 ; 
令 bo 表 示 过 程 的 入 口 结 点 ; 
标记 bo 已 被 处 理 ; 
worklist : = Ø; 
for each s E successors(bg) do worklist : = worklist U {(bo, s)}; 
while worklist + Ø do begin 
从 worklist 任 取 一 个 元 素 (pb,s)， 使 得 * 的 所 有 前 趋 结 点 
已 经 被 处 理 或 者 合并 到 5 中; 
if s 是 一 个 调用 点 then begin 
for each 1 E successors(s) do 
worklist : = worklist U {(s, 0}; 
标记 s 已 被 处 理 ; 
end 
else if s 是 一 个 出 口 结 点 then 不 做 任何 处 理 
else begin // s 是 一 个 常规 结 点 
将 s 合 并 到 5 中; 
for each 1 E€ successors(s) do 
证 THRU[b, AH X then 
THRU[B, t) :=THRU[b, s] O THRU[s, t]; 
else 
THRU[b, t] :=THRU[b, t] U (THRUfb, s] O THRU[s, t)); 


end ComputeReducedCFG 





图 11-12 构造 归 约 控制 流 图 的 算法 

很 容易 看 出 ， 图 11-12 中 的 算法 采用 了 一 个 拓扑 排序 算法 的 变形 ， 算 法 可 以 在 控制 流 图 大 
小 的 线性 时 间 内 实现 。 

一 旦 有 了 归 约 控制 流 图 ， 图 11-13 中 给 出 的 算法 就 可 以 用 于 计算 一 个 过 程 p 的 NKILL(p)， 
其 中 在 过 程 p 内 可 以 被 调用 的 所 有 过 程 的 NKILL 值 是 给 定 的 。 

假设 程序 中 所 有 的 变量 都 是 全 局 变量 ,那么 我 们 利用 一 个 简单 的 迭代 数据 流 分 析 算 法 
(采用 图 11-13 中 的 过 程 ) 就 可 以 计算 NKILL。 虽 然 ， 这 个 算法 在 最 坏 的 情况 下 需要 ON 的 
时 间 ， 但 是 ， 如 果 调 用 图 是 可 归 约 的 ， 算 法 仅仅 需要 O(WVN+ Ld) 个 位 向 量 操作 步 [143]， 其 中 
d 是 在 调用 图 中 非 环 路 径 中 回 边 数 的 最 大 值 。 这 种 情况 下 需要 的 总 时 间 为 O(NW+E)dV)， 和 迭代 
方法 实际 上 是 非常 快 的 。 

到 现在 为 止 ， 我 们 所 描述 的 算法 仅仅 能 在 程序 中 不 引用 形式 参数 的 情况 下 快速 计算 
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NKILL(p)。 如 果 存 在 引用 形式 参数 ， 这 个 算法 也 适合 用 来 在 已 知 正确 的 形式 参数 - 实 参 映射 关 
系 的 情况 下 产生 正确 的 答案 。 但 是 ， 此 算法 可 能 会 需要 很 长 时 间 才 能 达到 收敛 ， 原 因 是 可 能 
会 存在 “ 移 位 寄存 器 效应 ”， 在 这 种 情况 下 ， 某 些 参 数 会 被 传递 给 一 个 递归 调用 环 中 的 其 他 参 
数 。 我 们 在 11.2.3 节 中 处 理 M0D 问 题 时 观察 到 同样 的 问题 。 


procedure ComputeNKILL(p) 
for each Gruru(p) 中 逆 拓 扑 排序 的 do begin 
证 5b 是 一 个 出 口 结 点 then NKILL[b] : = Q; 
else if 5b 是 一 个 调用 点 then begin 
NKILL{b] :=@; 
for each Gruru(p) 中 b 的 后 继 结 点 s do 
NKILL[b] : = NKILL[b] U (NKILL[s] N THRU[B, s]); 
NKILL[b] : = NKILL[b] N NKILL{g], 
其 中 4 是 在 8 处 调用 的 过 程 ; 
end 
else begin // b 是 Grgru(p) 的 入 口 结 点 
NKILL[b] := 0; 
for each Grugu(p) 中 5 的 后 继 结 点 s do 
NKILL[b] := NKILL[b] U (NKILL([s] © THRUfb, s}); 
NKILL[p] := NKILL[b]; 
end 
end 
end ComputeNKILL 





图 11-13 计算 NKILL() 


幸运 的 是 ， FUME, RAL Lage RN BREA BRR 
图 。 我 们 将 构造 和 标记 绑 定 图 ， 算 法 在 图 11-14 中 给 





procedure BindingComputeNKILL(P) 

最 初 ， 令 绑 定 图 包含 程序 P 中 的 每 个 形式 参数 的 一 个 结 点 

worklist : =Ø; 

for each 程 序 中 的 过 程 p do begin 
令 NKILLolp] 是 应 用 图 11-13 中 的 算法 的 结果 

其 中 对 p 的 每 个 后 继 9 有 NKILL[9] = qa), Ug) 表示 9 的 形式 参数 集合 ; 

NKILL[p] := NKILLo(p); 
for each p 的 形式 参数 do begin 


if f © NKILLo{p] then 


killed(f) : = false; 
for each f 在 p 内 的 任意 一 个 调用 点 被 传递 到 的 形式 参数 g do 
在 绑 定 图 中 添加 一 条 边 Ff, 8); 
end 
else begin 
killed(f) : = true; worklist : = worklist U {f}, 
end 





图 11-14 构造 和 标记 NKILL 的 绑 定 图 
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while worklist + Ø do begin 
任 取 -个 元 素 f E worklist; 
worklist : = worklist — {f}; 
for each 在 绑 定 图 中 存在 -- 条 边 (8g, 户 的 g and killed(g) = false do begin 
令 q 是 用 g 作 为 形式 参数 的 过 程 ; 


NKILLIg] := 应 用 图 11-13 中 的 算法 的 结果 ， 其 中 g 的 后 继 结 点 采用 当前 的 NKILL 集 合 ; 
if g  NKILL[q] then begin 
killed(g) := true; worklist : = worklist U {8}; 


end 
end 
end 
end BindingComputeNKILL 





图 11-14 ( 续 ) 


只 有 当 我 们 发 现 某 过 程 的 一 个 参数 的 状态 可 能 被 改变 为 “被 注销 " ， 而 改变 的 原因 是 在 某 
个 调用 点 传递 的 一 个 参数 可 能 已 经 改变 了 状态 ， 此 时 我 们 会 更 新 这 个 过 程 的 KKILLC) 集合 。 
除 此 之 外 ， 这 个 算法 仅仅 是 迭代 算法 的 一 个 简单 变形 。 由 于 每 个 参数 只 能 被 加 入 到 worklist 之 
中 一 次 并 且 算法 是 访问 从 worklist 中 取出 的 一 个 参数 的 每 个 前 趋 ， 所 以 更 新 NKILL 的 总 次 数 就 
被 限制 在 O(Es+Nae)=OCE+A) 次 之 内 ， 其 中 Es 和 Ne 分 别 代表 绑 定 图 中 边 和 结 点 的 数目 ， 而 忆 
和 AN 分 别 代表 调用 图 中 边 和 结 点 的 数目 。 如 果 我 们 仔细 地 选择 从 workiist 中 取出 元 素 的 顺序 ， 
那么 更 新 的 次 数 还 可 以 进一步 减少 。 

我 们 注意 到 这 个 过 程 计算 出 的 注销 集合 是 不 精确 的 ， 因 为 这 些 集合 的 计算 没有 考虑 别名 
关系 。 假 设 我 们 知道 每 次 访问 过 程 p 时 ， 变 量 xi, x2, .…, x, 引 用 的 是 同样 的 位 置 ， 那 么 如 果 一 个 
变量 的 一 个 别名 在 * 处 调用 的 过 程 或 任何 在 这 个 过 程 内 调用 的 过 程 中 的 每 条 路 径 上 都 被 注销 ， 
则 这 个 变量 属于 KILL(9)。 换 名 话说， 我 们 可 以 通过 考虑 别名 关系 而 增 大 KILL 集 合 的 大 小 。 但 
是 ,这样 做 的 代价 很 高 ， 因 为 这 需要 计算 在 过 程 的 某 次 调用 中 ， 引 用 同一 位 置 的 所 有 变量 的 
元 组 的 集合 ， 这 需要 程序 中 用 做 参数 的 变量 数目 的 指数 级 的 时 间 。 


11.2.7 符号 化 分 析 
除了 到 现在 为 止 讨论 的 一 些 基本 分 析 问题 之 外 ， 成 功 的 程序 并 行 化 还 需要 解决 一 些 更 复 
杂 的 过 程 间 问题 。 其 中 两 个 尤为 重要 ， 它 们 是 符号 化 分 析 和 数组 区 域 分 析 [142，136]。 
虽然 常数 传播 提供 关于 过 程 人 口 处 变量 的 值 信息 ， 但 大 多 数 情况 下 ， 变 量 不 是 常数 ， 因 而 
无 法 证 明 它 们 是 常数 。 然 而 ， 要 改善 全 局 程序 分 析 ， 我 们 也 许 不 必 证 明 一 个 变量 是 常数 。 也 
许 确定 变量 值 的 范围 或 证 明 它 的 值 可 以 用 程序 中 同一 点 的 其 他 变量 的 值 的 函数 表示 就 是 够 了 。 
这 样 的 符号 关系 可 以 被 用 于 证 明 一 些 事实 ， 例如， 没有 依赖 关系 等 。 考 虑 如 下 简单 的 代码 : 
SUBROUTINE S(A, N, M) 
REAL A(N+M) 
INTEGER N, M 
DOI=1,N 
A(I+M) = A(I) +B 
ENDDO 
END 
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如 果 我 们 能 证 实在 5 的 入 口 处 N=M， 那 么 就 能 知道 这 个 子 程序 的 循环 中 没有 携带 循环 依赖 。 

过 程 间 符号 化 分 析 的 目的 是 为 了 证 明 在 菜子 过 程 的 入口 处 或 菜 调用 处 的 返回 点 一 些 关 于 
变量 值 可 能 满足 的 事实 。 经 常 进行 的 符号 化 分 析 有 三 类 : 

(1) 符号 化 表达 式 分 析 : 这 种 分 析 是 试图 借助 于 程序 中 同一 点 其 他 变量 的 值 来 确定 做 为 
一 个 变量 值 的 符号 化 表达 式 。 

(2) 谓词 分 析 : 这 种 分 析 是 试图 建立 一 对 变量 在 程序 给 定点 可 能 具有 的 值 的 关系 。 

G) 范围 分 析 : 这 种 分 析 是 试图 建立 一 个 变量 在 程序 给 定点 的 值 的 范围 ， 这 个 范围 由 已 
知 的 常数 上 下 界 组 成 ， 有 时 也 包括 常数 跨 距 。 | 

MM. LIRICA RULE RTL BEB AORTA. ld, ENAT 
中 ， 符 号 化 表达 式 分 析 和 谓词 分 析 都 会 发 现 M=N 这 个 事实 。 两 者 之 间 的 区 别 在 于 表达 式 分 析 所 
产生 的 值 可 能 会 涉及 到 很 多 其 他 的 值 ， 而 谓词 分 析 通 常 仅 涉及 一 系列 的 变量 对 。 另 一 方面 ， 
产生 符号 化 表达 式 的 分 析 要 比 简单 的 谓词 分 析 复 杂 得 多 。 

范围 分 析 可 以 有 效 地 用 在 程序 分 析 中 以 排除 某 种 可 能 性 。 例 如 ， 考 虑 下 面 的 子 程序 : 

SUBROUTINE S(A, N, K) 

REAL A(O:N) 
INTEGER N, K 
DOI=2,N 

A(I) = A(T) + A(K) 
ENDDO 

END 
如 果 我 们 能 证 明 在 这 个 子 过 程 的 入 口 处 k E [0:1] 成 立 ， 那 么 就 能 证 明 这 个 循环 不 携带 循环 依赖 

在 一 单个 过 程 中 ， 进 行 符号 化 表达 式 分 析 通常 都 采用 某 种 形式 的 值 计数 [27，236]， 它 对 
每 个 表达 式 给 定 惟一 的 数值 ， 这 样 ， 在 程序 的 给 定点 ， 数 值 相同 的 表达 式 在 运行 时 会 具有 相 
同 的 值 。 由 于 在 整个 程序 范围 内 的 值 计数 很 可 能 是 十 分 复杂 的 ， 所 以 典型 的 做 法 是 只 在 过 程 
范围 内 进行 值 计数 。 在 过 程 间 分 析 中 ， 一 个 受 限 制 的 关系 集合 跨越 过 程 边界 进行 传播 [14]， 例 
如 用 谓词 表示 的 关系 中 只 会 涉及 到 两 个 变量 。 

容易 看 出 ， 范 围 分 析 和 符号 化 表达 式 分 析 可 以 用 第 11.2.5 节 中 的 常数 传播 算法 的 变形 来 解 
决 。 为 了 使 用 这 个 算法 ， 我 们 需要 首先 定义 以 下 三 件 事情 : 

(1) 在 程序 中 引入 新 符号 信息 的 过 程 

(2) KARR: 由 包含 某 个 调用 点 的 过 程 的 入 口 处 信息 产生 该 调用 点 处 的 信息 

(3) 返回 跳 转 函数 : 由 过 程 入 口 处 成 立 的 关系 确定 该 过 程 输出 结果 的 关系 

让 我 们 考虑 如 何 综合 利用 这 三 个 函数 来 计算 范围 信息 。 范 围 信息 一 般 是 在 程序 的 控制 流 
点 引入 的 。 例 如 ， 在 一 个 以 : 

DO I=1, N 
为 循环 头 的 循环 中 ， 假 设 I E [1,N] 是 安全 的 。 同 样 ， 条 件 语句 可 以 引入 部 分 范围 信息 ， 而 这 
些 范围 信息 可 以 组 合 构成 完整 的 范围 信息 。 

在 所 有 的 符号 分 析 方法 中 ， 跳 转 函 数 计算 格 中 的 值 ， 这 种 网 格 比 常数 传播 中 的 格 复杂 得 
多 。 例 如 ， 在 范围 分 析 的 情况 下 ， 我 们 可 能 用 到 这 样 的 格 : 格 中 的 合并 操作 在 由 两 个 连接 的 
控制 流 分 支 的 一 对 范围 中 选取 较 大 的 上 界 和 较 小 的 下 界 。 图 11-15 中 描述 的 就 是 这 样 一 个 格 中 
的 一 部 分 。 如 果 我 们 可 以 限制 一 个 上 界 在 变 成 ~ 之 前 可 以 增加 次 数 ， 并 同样 地 限制 一 个 下 界 可 


n 
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法 中 。 
符号 化 谓词 分 析 比 范围 分 析 更 复杂 ， 一 | 

因为 在 谓词 分 析 中 需要 察看 一 对 变量 之 | 

间 的 关系 。 例 如 ， 知 道 以 下 信息 是 非常 bo 0 [1 + 100] [50 : =] 

有 用 的 : 两 个 变量 + 和 y 之 间 是 否 存 在 相 

等 的 关系 或 者 从 其 中 一 个 变量 到 另 一 个 [eo : 100] [1 : 0] 

变量 的 偏 移 量 是 一 个 常数 。 这 样 的 关系 

可 能 被 表示 为 Loo, 00] 

x-y=c 

其 中 c 是 一 个 编译 时 的 常数 。 关 于 变量 之 

间 的 更 加 通用 的 线性 关系 可 以 被 刻 划 为 
CX + CY = Co 

其 中 co，cut 和 cz 都 是 常数 。 注 意 ， 这 个 关系 是 传递 性 的 : 如 果 y 和 z 之 间 具 有 关系 
diy + doz =dy 

那么 我 们 可 以 找到 常数 eo，el 和 ez， 使 得 


eX + eZ = €o 


图 11-15 用 于 范围 分 析 的 简单 值 的 网 格 


特别 地 ， 
cıdıx — C2d22 = Cod; — Cado 
这 样 ， 在 程序 的 任何 一 点 ， 我 们 可 以 找到 相互 之 间 具 有 线性 关系 的 变量 的 集合 。 符 号 化 谓 
词 分 析 的 目标 就 是 在 程序 中 传播 这 些 集合 。 利 用 过 程 间 常 数 传播 的 一 种 变形 可 以 做 到 这 一 点 。 
11.2.8 数组 区 域 分 析 
584 到 现在 为 止 ， 所 讨论 到 的 分 析 对 于 我 们 在 自动 程序 并 行 化 过 程 中 必须 解决 的 最 重要 的 问 
585) 题 之 一 没有 多 大 帮助 ， 这 个 问题 就 是 如 何 分 析 包 含 过 程 调 用 的 循环 中 的 依赖 。 考 虑 如 下 代码 : 
SUBROUTINE S 
DIMENSION A(100,100) 


DO IT=1,N 


Sı CALL SOURCE(A,I) 1 对 A 赋值 
Sz CALL SINK(A,I) ! 使 用 A 
ENDDO 
RETURN 
END 


如 果 希 望 将 这 个 子 程序 中 的 循环 并 行 化 ， 我 们 必须 判断 这 个 循环 中 是 否 携带 循环 依赖 。 
前 面 几 节 所 描述 的 若干 种 过 程 间 信息 用 处 很 小 ， 只 能 告诉 我 们 数组 A 被 SOURCE 修 改 并 由 SINK 使 
用 。 如 果 没 有 更 有 用 的 信息 ， 我 们 必须 假设 在 S0URCE 中 存在 对 数组 某 个 元 素 的 赋值 ， 这 个 赋 
值 在 循环 的 某 次 后 续 选 代 中 被 SINK 使 用 。 换 名 话说， 我 们 必须 假设 这 个 循环 携带 循环 依赖 ， 
且 不 能 被 并 行 化 。 

如 果 我 们 能 证 明 在 两 个 例 程 中 对 A 的 访问 只 局 限 在 第 I 列 ， 情 形 就 不 一 样 了 ， 这 隐 含 把 I 作 
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为 参数 传递 给 两 个 例 程 。 此 时 ， 我 们 就 知道 这 个 循环 的 不 同 迭 代 处 理 的 是 数组 的 不 同 部 分 ， 
没有 循环 携带 依赖 存在 。 我 们 下 面 将 提炼 出 一 种 过 程 间 分 析 方 法 可 以 证 明 类 似 这 样 的 条 件 ， 
也 就 是 说 我 们 的 分 析 应 当 能 识别 整个 数组 中 的 子 数 组 。 
假设 我 们 能 计算 在 循环 的 第 I 次 友 代 中 SOURCE 可 能 修改 的 数组 内 的 元 素 集合 MA(D ， 以 及 
第 1! 个 迭代 中 SINK 可 能 使 用 到 的 数组 元 素 集 合 Ua(。 用 处 理 数 组 的 MOD 和 USE 版 本 可 以 分 别 计 算 
这 两 个 集合 。 那 么 ， 循 环 中 存在 真 依赖 的 充分 必要 条 件 是 存在 1 和 1。(1< < I<N) 使 得 
Midd N Ugh) + Ø 
为 了 在 这 些 子 数组 上 进行 分 析 ， 我 们 需要 一 种 表示 子 数 组 的 方法 。 这 种 表示 法 也 应 当 很 
容易 表示 “ 交 ” 和 “并 ”的 操作 。 
很 直接 的 想法 是 扩展 标准 数据 流 算法 ， 原 算法 中 使 用 了 位 向 量 ， 其 中 的 位 向 量 每 一 位 只 
能 表示 两 种 状态 (如 可 能 被 修改 或 必定 不 修改 )， 扩 展 的 方法 是 把 位 向 量 扩展 为 更 通用 的 格 元 
素 的 向 量 。 如 果 能 找到 一 个 可 以 精确 表示 子 数 组 的 格 ， 那 么 ， 我 们 就 可 以 在 过 程 间 数 据 流 分 
析 过 程 中 使 用 这 个 格 来 确定 子 数组 的 副作用 。 
格 表 示 应 具备 如 下 几 个 重要 的 特性 : 
(1) 表示 应 当 尽 可 能 地 精确 。 
(2) 条 控制 流 路 径 汇合 时 所 调用 的 合并 操作 必须 高 效 。 
(3) 依赖 测试 也 应 当 高 效 ， 因 为 依赖 测试 通常 涉及 到 两 个 区 间 表 示 的 交 操作 。 
(4) 应 当 能 在 分 析 框 架 内 处 理 递 归 ， 这 意味 着 格 应 当 具 有 有 限 递 减 链 的 特性 ， 换 句 话说 ， 
格 中 每 个 递减 链 在 经 过 有 限 步 又 后 必须 达到 最 小 值 。 
(5) 这 个 网 格 应 当 能 处 理 调用 点 出 现 的 参数 传递 。 
让 我 们 考虑 在 图 11-16 中 给 出 的 一 个 可 能 用 于 表示 子 数 组 的 格 ， 这 个 格 是 满足 若干 以 上 要 
求 的 。 格 中 的 元 素 为 简单 规则 区 域 ， 因 为 
它们 只 能 表示 非常 有 限 数目 的 规则 的 子 数 
组 ， 即 点 、 行 、 列 和 整个 矩阵 。 ER. A 
为 我 们 可 能 在 下 标 中 使 用 任意 的 变量 或 常 AC) ACT) ACE.) 
数 ， 所 以 这 个 格 也 可 能 扩展 成 无 限 大 。 但 
是 它 具 有 有 限 递减 链 的 特性 ， 因 为 格 中 没 A(I,*) AC*,J) 
有 元 素 可 能 被 下 降 二 次 以 上 。 
在 评价 这 个 格 表示 时 ， 我 们 发 现 其 中 A(# 本) 
— 、 . A 
DANAN REACTOR oes 
(1) 格 的 深度 为 E+ 1， 其 中 古 所 表示 的 数组 的 下 标 位 置 的 个 数 。 
(2) 合并 操作 的 代价 是 O(k)， 因 为 对 于 两 个 引用 的 每 个 下 标 位 置 必须 进行 检查 和 比较 ， 
以 决定 什么 必须 合并 。 
(3) 对 于 依赖 测试 来 说 很 关键 的 “ 交 ” 操 作 ， 在 这 里 是 有 限 形式 的 合 一 操作 ， 它 也 可 以 
在 下 标 数 目的 线性 时 间 内 完成 。 
为 了 证 实 最 后 一 个 断言 ， 注 意 在 格 中 每 个 下 标 位 置 上 ， 要 么 是 一 个 符号 表达 式 ， 要 么 是 
一 个 常数 或 表示 整个 行 或 列 的 符号 “*”。 这 样 ， 如 果 两 个 下 标 都 是 符号 表达 式 ， 则 当 二 者 相 
同时 ， 结 果 下 标 为 同样 的 表达 式 ; 否则 ， 结 果 下 标的 值 为 “*”。 如 果 被 合并 的 一 个 下 标 是 表 
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达 式 ， 另 一 个 下 标 是 “*”， 则 结果 下 标 为 “*”。 
一 个 剩余 的 问题 是 : 这 种 表示 的 精确 程度 如 何 ?” 实践 证 明 这 种 表示 方法 过 于 简单 了 ,因为 
这 种 方法 不 能 表示 区 域 有 界 的 子 数 组 。 因 此 ， 在 数组 A(100, 100) 中 ，A(1:10, 1:10) 的 最 好 的 
近似 表示 是 A(*, *)。 一 种 好 得 多 的 表示 是 有 界 规则 区 域 ， 在 这 种 表示 方法 中 ， 允 许 指出 每 一 
维 下 标的 上 界 和 下 界 。 它 也 可 以 被 看 作 是 Fortran 90 中 跨 距 为 1 的 三 元 组 记 法 。 对 这 种 表示 的 
较为 广泛 使 用 的 扩展 是 任意 跨 距 的 三 元 组 记 法 和 三 角形 子 数组 。 
只 要 所 用 到 的 格 具 有 有 限 递 减 链 特性 ， 那 么 我 们 就 可 以 直接 改写 诸如 MOD 问 题解 法 中 过 程 
间 算 法 来 处 理 格 元 素 向 量 。 由 于 形式 参数 被 放 入 工作 表 的 次 数 不 可 能 超过 Kk 次 (Kk 是 格 的 最 大 深度 )， 
所 以 MOD 算 法 中 和 绑 定 图 相关 的 部 分 是 收敛 的 。 算 法 的 可 达 性 部 分 也 是 收敛 的 ， 因 为 算法 每 找 
到 一 个 强 连 通 区 域 ， 这 个 区 域内 的 每 个 元 素 的 元 素 向 量 被 设置 为 这 个 区 域内 的 最 小 格 元 素 。 
注意 ， 到 现在 为 止 所 讲述 的 四 个 副作用 问题 一 -MOD，REF，NKILL 和 USE 中 ， 我 们 总 
是 想 向 高 的 方向 估计 所 涉及 到 的 数组 区 域 ， 因 为 我 们 只 有 在 确切 知道 一 个 变量 不 在 调用 点 处 
的 这 些 副 作用 问题 的 集合 中 时 才 做 优化 。 考 虑 11.2.1 节 中 的 私有 化 的 例子 。 我 们 将 能 把 变量 P 
变 成 循环 私有 的 ， 如 果 我 们 发 现 对 于 循环 开始 处 的 调用 点 So 有 
P € (KILL(S0) N AUSE(S,)) 
H, RIE 
P ¢ (NKILL(S)) U USE(Sp)) 
时 进行 优化 ， 所 以 我 们 必须 向 高 的 方向 而 不 是 向 低 的 方向 估计 这 些 集合 ， 只 有 这 样 才 能 保证 
不 精确 的 结果 只 会 导致 失去 优化 的 机 会 ， 而 不 会 导致 错误 的 代码 。 


11.2.9 调用 图 的 构造 
到 现在 为 止 ， 我 们 总 是 假设 在 一 个 精确 的 调用 图 上 解决 过 程 间 数据 该 问题 。 乍 一 看 ， 似 
平 容易 构造 出 这 样 一 个 调用 图 : 只 要 简单 地 检查 程序 中 的 每 个 过 程 ， 对 于 每 个 调用 点 构造 一 
条 从 调用 过 程 到 被 调用 过 程 的 边 。 只 要 没有 过 程 参数 的 存在 ， 这 种 简单 的 方法 就 可 以 很 好 地 
工作 。 但 是 ， 如 果 有 过 程 参数 存在 ， 我 们 将 看 到 类 似 下 面 的 代码 : 
SUBROUTINE SUB1(X, Y, P) 
INTEGER X, Y 
So CALL P(X, Y) 
RETURN 
END 
这 里 的 问题 是 决定 什么 过 程 将 在 调用 点 5o 处 被 调用 。 如 果 对 于 SUB1 只 有 一 个 调用 序列 ， 
那么 可 以 简单 地 反 查 调用 链 确定 传 给 参数 P 的 过 程 。 但 是 ， 我 们 无 法 假设 这 里 只 有 一 条 调用 链 
存在 ， 因 为 在 语言 中 引入 过 程 参数 的 目的 是 为 了 即使 在 同一 个 程序 中 ， 可 以 把 多 个 不 同 的 过 
程 传 给 参数 P。 
为 解决 这 个 问题 ， 对 于 每 个 过 程 参数 P， 我 们 必须 能 够 确定 可 能 被 直接 或 间接 地 传递 给 P 
的 过 程 的 名 字 。 但 是 ， 我 们 必须 小 心 避免 在 多 个 过 程 参 数 被 传递 的 情况 下 损失 精确 性 。 考 虐 
如 下 的 例子 : 
SUBROUTINE SUB2(X, P, Q) 


INTEGER X 
Si CALL P(X,Q) 
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RETURN 
END 
假设 我 们 有 两 个 调用 
CALL SUB2(X, P1, Q1) 
CALL SUB2(X, P2, 02) 
其 中 P1 和 P2 只 就 它们 的 整 型 参数 调用 它们 的 过 程 参 数 ， 然 后 返回 
SUBROUTINE P1(X, Q) 
INTEGER X 
S2 CALL Q(X) 
RETURN 
END . 
这 样 ， 在 子 程序 SUB2 中 的 调用 点 S: 处 ， 我 们 可 以 把 过 程 Q1 传 递 给 过 程 P1 或 者 把 过 程 02 传 递 给 
过 程 P2。 我 们 决 不 能 把 过 程 Q1 传 递 给 过 程 P2 或 者 把 过 程 02 传 递 给 过 程 P1。 换 名 话说， 在 这 个 
程序 中 ，P1 只 能 调用 Q1 ，P2 只 能 调用 02。 但 是 ， 简 单 的 过 程 跟踪 方案 只 维护 能 够 传递 给 某 个 
给 定 参数 的 过 程 的 列表 ， 这 个 方案 可 以 得 到 从 P1 到 Q2 和 从 P2 到 Q1 的 边 ， 因 为 可 能 传 给 Pl 中 的 
参数 Q 的 过 程 列表 包括 01 和 0Q2。 
为 了 克服 这 个 问题 ， 一 个 精确 的 调用 图 构造 算法 必须 跟踪 可 能 被 同时 传 给 S, 中 的 过 程 形 
式 参 数 的 过 程 参 数 对 。 这 就 提出 一 个 通用 的 过 程 调用 图 构造 算法 。 
假设 对 于 每 个 接受 过 程 参 数 的 过 程 p， 我 们 收集 一 个 过 程 各 元 组 集合 PROCPARMS(p)， 这 些 
过 程 各 可 以 同时 传递 给 p， 元 组 中 过 程 名 的 顺序 同 p 的 参数 表 中 过 程 参数 的 顺序 相同 。 这 样 ， 
图 11-17 中 的 迭代 算法 就 可 以 被 用 来 确定 在 每 个 调用 点 传递 的 过 程 参数 元 组 的 正确 集合 。 


procedure ComputeProcParms 
for each 程 序 中 的 过 程 p do PROCPARMS(p) : =Ø; 
W :=@; 
for each 程 序 中 的 调用 点 * do begin 
这 此 调用 点 向 被 调用 过 程 的 所 有 过 程 参 数 传递 过 程 名 字 do begin 
令 1= (N,N. NO 是 被 传递 的 过 程 名 字 元 组 ， 其 中 过 程 名 的 顺序 是 其 传递 的 顺序 ; 
W:=WU {(t,p)}， 其 中 p 是 被 调用 的 过 程 ; 


end 


end 
while W+ Ø do begin 
Ay (t= (Ni, Na, -o Ni)，p》 是 W 中 任 一 元 素 ; 


W:=W-{(t, pd}; 
PROCPARMS[p] : = PROCPARMS[p] U {1}; 
A> (Pi, Po, PO 是 过 程 参 数 的 集合 ， 元 组 != (N, Ni, .…, NO 的 元 素 映射 到 这 个 集合 中 的 元 素 ; 
for each p 中 的 过 程 调用 点 s， 
在 此 调用 点 ， 对 应 某 些 i(1 <i < k) 的 已 被 作为 过 程 参数 传递 do begin 
令 u= (M, My, Md 是 被 传递 给 在 * 处 被 调用 过 程 g 的 过 程 名 字 的 集合 ， 
其 中 每 个 M, 是 在 第 ;个 位 置 的 过 程 名 字 ， 
或 者 是 N;( 如果 P 在 第 ;个 位 置 被 传递 )， 不 会 有 其 他 情况 ; 
if u £ PROCPARMS[g] then W: =W U {<u, q)}; 
end 
end 
end ComputeProcParms 


图 11-17 计算 过 程 参 数 元 组 的 算法 
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正确 性 ”为 了 证 明 图 11-17 中 的 过 程 ComputeProcParms 产 生 正确 的 结果 ， 我 们 必须 证 明 磷 
代 可 以 终结 ， 而且 ， 对 于 程序 中 每 个 过 程 p?， 它 计算 出 的 PROCPARMS(p) 满足 : 当 且 仅 当 存在 一 
条 调用 链 把 参数 名 N, No, …, Ne 依 此 顺序 传递 给 pz 的 相应 位 置 的 过 程 参数 时 ，(N, No … Na) E 
PROCPARMS(p). 

终结 性 : 对 于 每 个 过 程 p»， 如 果 vp 是 参数 数目 的 上 限 ，Np 是 程序 中 作为 参数 传递 的 过 程 名 
的 总 数 ， 那 么 程序 中 可 能 的 元 组 的 总 数 是 


SN (11-10) 
5 


这 个 数目 显然 是 有 限 的 。 由 于 元 组 最 多 只 会 被 放 到 工作 表 中 一 次 ， 并 且 只 有 有 限 数目 的 
元 组 ，while 循 环 中 的 每 次 迭代 处 理 一 个 元 组 ， 所 以 这 个 算法 必定 是 可 终结 的 。 

充分 性 : 假设 存在 这 样 一 条 调用 链 po, po-o pi Po 是 主 过程 ， 且 户 =P， 沿 着 这 条 调用 链 把 
Ni, No, .…, Ni 传递 给 p 的 过 程 参数 ， 并 且 假 设 (N, Ni, …, Ne) É PROCPARMS(p)。 对 于 这 条 调用 
链 的 每 个 过 程 p:， 必 有 一 个 过 程 名 的 元 组 6。 不 失 一 般 性 ， 假 设 p = 部 是 调用 链 中 第 一 个 输入 元 
组 不 在 PROCPARMS 中 的 过 程 。 换 句 话 说 ， 对 于 满足 0< i< /的 所 有 i，i; E PROCPARMS(p,)。 如 果 
l=1, PRABBN,, No, .... 和 就 是 主 过 程 ( 主 过 程 没有 参数 ) 中 被 显 式 传递 给 p 的 过 程 名 。 这 种 
ERF. (Ni, No o NO 由 初始 化 循环 加 到 PROCPARMS(p) 中 。 这 和 我 们 的 假设 矛盾 ， 所 以 这 
必定 是 !> 1 的 情形 。 所 以 ，t/_1= (M, M, .…, M) 必定 会 在 算法 执行 的 某 个 时 刻 被 从 工作 表 
中 取出 并 加 入 到 PROCPARMS(p1-1) 中 。 在 那个 时 刻 ，《Ni, No, … NO 必定 会 由 于 调用 p 的 调用 点 
而 被 放 入 工作 表 中 ， 因 为 被 传递 给 p 的 每 个 N, 必 定 是 一 个 显 式 过 程 名 或 M,， 其 中 是 在 第 ;个 位 
置 传递 给 p 的 pi- ! 的 过 程 参数 索引 。 

必要 性 : Rit (N, No, …, Ned E PROCPARMS(p)。 那 么 以 下 两 种 情况 必 有 一 种 成 立 : 一 是 
Ni, No, o Ni 都 是 显 式 的 过 程 名 字 ， 这 种 情况 下 ， 它 们 都 在 茶 个 调用 点 被 直接 传 给 p (可 以 证 
明 这 个 必要 条 件 ) ; 二 是 表 中 至 少 有 一 个 过 程 参 数 的 名 字 。 在 后 一 种 情况 中 ，《Ni, No, .…, Ned 
必定 是 在 《《Ni, No, -o Ne) ，p》〉 被 从 工作 表 W 中 取出 时 被 加 进 PROCPARMS(p) 的 。 因 为 存在 一 
MERAN, Na, . NV AEA BUA Fp. 而 且 4 被 调用 时 ， BRAM,, Mo, ..., MB. (Mi, Mb, ..., 
Mi) EPROCPARMS(q)， 所 以 《《Ni,N2,.…, Ni) ，p〉 必 定 会 被 放 进 工作 表 中 。 由 于 不 同 过 程 名 的 
元 组 数目 是 有 限 的 («< N*);， 并 且 每 个 元 组 最 多 只 可 能 被 放 进 工作 表 一 次 ， 所 以 我 们 一 定 能 沿 
调用 链 反 向 搜索 找到 相应 的 显 式 过 程 名 。 于 是 这 个 搜索 过 程 中 所 访问 的 过 程 的 反 向 序列 就 是 
我 们 所 要 的 调用 链 。 证 明 完 毕 。 

复杂 性 ”上 面 我 们 看 出 公式 (11-10) 给 出 元 组 的 总 数 。 令 vo = maxp(v,)，Nc 表 示 至 少 有 
一 个 过 程 参数 的 过 程 的 数目 ，Nr 表 示 程 序 中 某 处 被 传 给 一 个 过 程 的 过 程 名 字 的 数目 。 那 么 ， 
算法 的 运行 时 间 近 似 为 

EN? =ONN P=) < ONN”) = O(N") (11-11) 


其 中 N 是 程序 中 过 程 的 数目 。 在 程序 中 任何 过 程 的 过 程 参数 不 超过 一 个 的 特殊 情况 下 ， 运 行 时 
间 是 OCUV?)。 在 Fortran 的 典型 应 用 中 ， 因 为 过 程 参数 的 使 用 是 受 限制 的 ， 所 以 算法 的 运行 时 间 
不 是 一 个 重要 的 因素 。 但 是 ， 对 于 那些 允许 更 复杂 的 过 程 参 数 使 用 模式 的 语言 来 说 ， 存 在 运 
行 时 间 为 线性 调用 图 大 小 或 接近 线性 调用 图 大 小 的 逼近 算法 [133，130]。 


11.3 过 程 间 优化 
在 介绍 分 析 整 个 程序 的 基础 理论 后 ， 下 面 我 们 把 这 种 分 析 用 在 过 程 间 优化 中 。 
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11.3.1 ARKE 
我 们 最 熟悉 的 过 程 间 优化 是 内 联 替 换 ， 它 在 调用 点 用 一 个 子 程序 的 过 程 体 替 换 ， 在 替换 
后 的 过 程 体 中 用 实 参 数 代替 形式 参数 。 
下 面 举 一 个 内 联 替 换 的 例子 : 
PROGRAM MAIN 
REAL A(100) 
CALL INPUT(A,N) 
DOI=1,N 
CALL PROCESS(A,I) 
ENDDO 
CALL REPORT(A,N) 
END 
SUBROUTINE PROCESS(X,K) 
REAL X(*) 
X(K) = X(K) +K 
RETURN 
END 


如 果 我 们 内 联 子 程序 PROCESS， 并 用 A 和 1I 分 别 夫 换 X 和 K， 得 到 如 下 代码 : 

PROGRAM MAIN 

REAL A(100) 
CALL INPUT(A,N) 
DOI=1,N 

AG) = A(I) +1 
ENDDO 
CALL REPORT(A,N) 

END 

这 段 代码 说 明 内 联 奉 换 的 几 个 众所周知 的 好 处 : 

(1) 过 程 调用 的 开销 可 以 消除 。 

(2) 过 程 体 代 码 被 修改 为 适合 调用 点 环境 的 形式 。 例 如 ， 这 个 例子 中 索引 变量 I 就 可 以 放 
在 寄存 器 而 不 用 放 在 内 存 中 。 

(3) 可 以 执行 一 些 内 联 替 换 之 前 不 可 能 进行 的 优化 。 在 本 例 中 ， 循 环 可 以 被 向 量化 。 

内 联 的 好 处 如 此 令 人 信服 ， 以 至 于 许多 人 建议 把 内 联 作为 一 种 通用 方法 来 替代 过 程 间 分 析 的 
方法 。 如 果 程 序 中 所 有 的 过 程 都 被 内 联 ， 那 么 普通 的 单个 过 程 分 析 方 法 就 可 以 用 来 优化 整个 
程序 。 

但 是 ， 过 度 地 使 用 内 联 也 会 导致 一 系列 的 问题 : 

(1) 由 于 替换 之 后 的 过 程 大 小 可 可 能 会 增长 到 无 法 控制 的 程度 ， 过 度 使 用 单 模块 编译 器 的 
能 力 ， 因 此 寻求 大 量 的 替换 可 能 导致 编译 系统 的 瘫痪 。 在 一 个 很 著名 的 例子 中 ， 一 个 从 系统 
内 联 产生 的 程序 花费 95 小 时 的 编译 时 间 [83]。 

(2) 由 内 联 程序 产生 的 目标 代码 可 能 会 运行 得 非常 慢 ， 因 为 优化 编译 器 不 能 很 好 地 处 理 
系统 内 联 的 结果 程序 [83]。 

(3) 在 内 联 子 程序 中 修改 的 任何 代码 都 会 导致 它 亿 入 其 中 的 每 个 过 程 的 重新 编译 。 极 端 
的 情况 下 ， 任 何 代码 的 修改 都 会 造成 对 整个 程序 的 重新 编译 。 

(4) 一 些 子 过 程 是 很 难 被 内 联 的 ， 因 为 在 用 实 参数 替换 形式 参数 的 过 程 中 会 产生 一 些 问 
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题 。 下 面 这 段 难看 但 合法 的 代码 可 以 说 明 这 一 点 : 
PROGRAM MAIN 
REAL A(100, 100) 


CALL S(A(26,2),N) 


END 


SUBROUTINE S(X, M) 
REAL X(*) 
DOI=1,M 

X(I) = XI) +M 
ENDDO 
RETURN 
END 


这 个 例子 中 的 困难 是 由 于 在 子 程序 $ 中 把 二 维 实 参数 A 当 作 一 维 数组 而 引起 的 。 我 们 可 以 
在 主 程序 的 数组 A 和 一 个 一 维 数组 之 间 引 入 一 个 等 价 语句 ， 从 而 的 到 如 下 代码 : 


PROGRAM MAIN 
REAL A(100,100), a$(10000) 
EQUIVALENCE (A(1,1), a$(1)) 


DOI=1,N 
a$(I+125) = a$(I+125) +N 
ENDDO 


END 
这 种 方法 的 主要 问题 在 于 失去 不 同行 和 列 之 间 的 非 依赖 信息 ， 而 这 一 点 对 于 依赖 分 析 恰 
恰 又 是 很 重要 的 。 进 一 步 ， 如 果 其 他 过 程 调用 了 S$， 并 且 A 是 作为 参数 传 给 该 过 程 的 ， 那 么 这 
种 方法 就 无 能 为 力 了 。 
代替 系统 内 联 ， 我 们 推荐 一 种 选择 性 的 、 目 标 制 导 的 内 联 方法 ， 这 种 方法 用 全 局 程序 分 
析 来 决定 什么 时 候 内 联 是 有 利 的 [44]。 


11.3.2 过 程 克 隆 
通常 内 联 的 好 处 是 可 以 获得 一 些 特定 的 优化 效益 ， 这 些 优化 对 于 那个 过 程 的 某 些 调用 点 
是 可 行 的 ， 但 不 是 对 所 有 调用 点 都 是 可 行 的。 考虑 下 面 的 例子 : 
PROCEDURE UPDATE (A, N, IS) 
REAL A(N) 
INTEGER N, IS 
DOI=1,N 
A(I*IS-IS+1) = A(I*IS-IS+1) + PI 
ENDDO 
END 
初 看 起 来 ， 这 段 代 码 可 以 向 量化 ， 事 实 上 如 果 不 是 由 于 有 步 长 大 小 IS=0 的 可 能 性 (这 种 情况 
下 ， 计 算 就 相当 于 把 N*PI 的 结果 加 到 A(1) 上 )， 这 段 代码 原本 是 可 以 向 量化 的 。 
对 这 个 问题 的 明显 解决 方案 是 基于 IS 的 不 同 值 ， 把 代码 改写 成 为 不 同 的 特定 版 本 。 虽 然 
这 可 以 通过 一 个 运行 时 进行 的 测试 实现 ， 但 是 如 果 在 编译 时 知道 15 在 每 个 调用 上 下 文中 的 值 ， 
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我 们 就 可 以 产生 程序 的 两 个 版 本 ， 一 个 是 IS* 0 的 情况 ， 另 一 个 是 IS=0 的 情况 。 对 于 某 些 可 以 
在 编译 时 间 确 定 IS 值 的 UPDATE 的 调用 点 ， 编 译 器 可 以 用 一 个 对 克隆 后 的 版 本 的 调用 来 代替 对 
UPDATE 的 调用 。 

克隆 是 一 个 加 强 常数 传播 作用 的 非常 有 效 的 途径 ， 对 于 那些 调用 发 生 时 是 不 同 常数 值 的 
参数 ， 在 原 过 程 的 不 同 的 克隆 版 本 中 ， 这 些 参 数 可 以 被 视 为 常数 。Convex 应 用 编译 器 是 我 们 
所 知道 的 惟一 运用 这 种 优化 的 商用 编译 器 ， 而 这 一 点 正 是 它 使 用 克隆 的 目标 [213]。 


11.3.3 混合 优化 
有 些 情 况 下 ,涉及 到 多 个 过 程 的 变换 可 以 用 来 在 不 引入 内 联 的 缺点 的 情况 下 获得 内 联 的 
效益 。 寄 环 炭 入 就 是 这 样 一 个 混合 优化 ， 这 种 优化 可 以 把 一 个 循环 从 一 个 过 程 移 到 另 一 个 过 
程 中 [134]。 i 
考虑 11.3.1 节 中 的 针对 内 联 的 原始 例子 。 如 果 把 循环 交换 到 子 程序 PROCESS 中 ， 我 们 可 
以 得 到 如 下 代码 ， 这 段 代 码 可 以 被 向 量化 : 
SUBROUTINE PROCESS(X,N) 
REAL X(*) 
DO K=1, N 
X(K) = X(K) +K 
ENDDO 
RETURN 
END 
注意 子 程序 接口 已 经 改变 : 循环 的 上 界 代 替 循 环 索 引 成 为 子 程序 的 一 个 参数 。 
已 经 发 现在 一 些 例子 中 ， 类 似 这 样 的 过 程 间 优 化 是 有 用 的 、 尽 管 至 今 只 有 有 限 的 证 据 ， 
不 具有 普遍 性 。 


11.4 管理 整个 程序 的 编译 

过 程 间 编 译 引发 的 一 个 问题 是 编译 管理 方面 的 困难 。 在 一 个 传统 的 编译 系统 中 ， 任 何 一 
个 独立 过 程 的 目标 代码 仅仅 是 关于 源 代 码 中 该 过 程 的 一 个 函数 。 但 是 在 过 程 间 编译 系统 中 ， 
一 个 过 程 的 目标 代码 可 能 依赖 于 整个 程序 的 源 代 码 。 这 就 意味 着 源 代 码 中 的 一 处 修改 可 能 会 
使 得 每 个 过 程 都 重新 编译 。 在 一 个 大 程序 中 、 如 果 在 每 一 次 小 的 修改 后 都 要 重新 编译 全 部 的 
程序 ， 那 么 用 户 会 因此 而 感到 不 快 。 

我 们 可 能 希望 能 对 程序 的 维护 阶段 所 产生 的 修改 的 过 程 间 效 应 有 所 限制 。 这 样 ， 可 以 检 
查 过 程 间 信息 流 效 果 的 全 局 程序 分 析 方 法 对 于 减少 重新 编译 的 次 数 是 有 用 的 。 

我 们 首先 把 程序 编译 分 成 两 个 不 同 的 阶段 : 一 个 阶段 依赖 于 过 程 间 信息 ， 另 一 阶段 不 依赖 
于 过 程 间 信息 。 第 一 个 阶段 包括 了 许多 通常 的 编译 任务 一 一 词法 分 析 、 语 法 分 析 、 语 义 分 析 等 ， 
我 们 称 其 为 局 部 分 析 。 在 完成 上 述 工 作 的 同时 , 这 个 阶段 也 会 检查 被 处 理 的 过 程 得 到 一 些 局 部 
信息 作为 过 程 间 分 析 的 输入 ， 这 些 局 部 信息 通常 包括 一 些 过 程 间 分 析 中 将 要 用 到 的 集合 ， 比 如 
在 M00 分 析 时 要 用 到 的 IM00 集 合 。 根 据 这 样 的 划分 ， 编 译 过 程 可 以 用 图 11-18 中 的 结构 表示 。 

虽然 ， 这 种 结构 实现 了 过 程 间 编 译 ， 但 重新 编译 的 问题 仍然 没有 被 解决 。 但 是 ， 如 果 中 
间 表 示 被 保存 下 来 ， 那 么 对 于 任何 没有 修改 过 的 过 程 ， 局 部 分 析 阶 段 就 不 必 重 新 执行 了 。 

为 了 更 直接 地 处 理 重 新 编译 的 问题 ， 我 们 按照 图 11-19 来 组 织 编译 系统 。 在 这 种 组 织 方案 
中 ， 词 法 分 析 的 任务 由 一 个 单独 的 系统 构件 来 完成 ， 这 个 构件 可 以 驻 留 在 模块 编辑 器 或 者 输 
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入 工具 内 。 源 程序 中 每 个 过 程 的 信息 (包括 语法 分 析 之 后 的 结果 ) 保存 在 中 间 表 示 中 。 在 这 
个 系统 中 ， 程 序 通过 构件 编辑 器 由 程序 构件 规范 定义 ， 构 件 编辑 器 可 以 看 作 是 一 个 过 程 名 列 
表 的 编辑 器 。 注 意 : 一 个 程序 构件 可 能 十 分 简单 ， 例 如 像 一 个 Unix 命 令 make 的 输入 文件 一 样 
简单 。 程 序 编译 器 是 负责 整个 程序 的 编译 的 系统 构件 。 它 读 入 程序 中 过 程 的 所 有 局 部 信息 并 
且 完 成 用 户 需 要 的 各 种 过 程 间 分 析 和 优化 。 一 旦 有 了 所 有 过 程 间 信息 ， 模 块 编译 器 实现 每 个 
过 程 的 优化 变换 ， 其 中 模块 编译 器 可 以 看 作 是 一 个 复杂 的 优化 系统 。 注 意 通 过 把 局 部 分 析 从 
优化 中 分 离 出 来 ,我们 消除 了 程序 中 各 个 过 程 之 间 的 编译 顺序 的 依赖 关系 。 





过 程 间 分 析 





每 个 过 程 整个 程序 每 个 过 程 
实施 一 次 实施 一 次 实施 一 次 


图 11-18 完整 的 过 程 间 编 译 过 程 
这 个 系统 本 身 并 没有 解决 重新 编译 的 问题 。 它 必须 有 一 个 从 不 同 模块 编译 中 的 实施 信息 反 
馈 的 系统 与 之 配合 ， 这 个 信息 反馈 系统 指出 模块 编译 器 依赖 了 哪些 过 程 间 分 析 要 素 。 为 了 说 
明 这 个 过 程 ， 考 虑 在 图 11-20 中 给 出 的 过 程 间 重 编译 MOD 集 的 过 程 。 l 


块 输入 器 
构件 编辑 器 













IMOD 过 程 列表 
MUSTN- 
OTMOD 
模块 编译 器 
图 11-19 过 程 间 编译 系统 图 11-20 重 编译 分 析 


我 们 定义 集合 MUSTNOTNM0D(P, s)， 集 合 中 包括 所 有 在 保持 过 程 p 的 代码 正确 的 情况 下 ， 一 - 
定 不 会 由 于 过 程 调用 的 副作用 而 在 过 程 p 中 的 调用 点 s 被 修改 的 变量 。 这 样 如 果 在 调用 点 s 处 被 
调用 的 过 程 4 的 源 代 码 被 修改 ， 从 而 在 MUSTNOTM0D(p, s) 中 的 一 个 变量 也 被 改变 了 ， 那 么 p 必 须 
被 重新 编译 。 我 们 把 MUSTNOTM0D(p, s) 看 做 对 过 程 p 最 后 一 次 调用 优化 模块 编译 器 时 ， 这 个 优 
化 模块 编译 器 的 动作 的 纪录 。 每 当 优 化 器 利用 “ 某 个 变量 不 会 在 调用 点 * 处 被 修改 ”这 个 事实 
去 做 某 种 优化 时 ， 优 化 器 就 会 把 这 个 变量 放 入 MUSTNOTMODC,*) 中 。 

在 研究 MUSTNOTM0D 时 ， 我 们 依赖 于 这 样 一 个 观察 的 结果 : 一 个 优化 器 只 有 当 确 信 会 使 优 
化 非法 的 事件 不 可 能 出 现时 ， 才 会 根据 相关 信息 变换 程序 。 因 此 ， 优 化 是 依据 不 出 现在 MOD(s) 
中 的 变量 进行 的 ， 因 为 不 出 现在 Mo00 中 意味 着 这 个 变量 不 可 能 被 作为 调用 的 副作用 所 修改 。 同 
样 ， 优 化 也 将 基于 REF(s) 中 不 出 现 的 某 些 变 量 而 进行 ， 所 以 MUSTNOTREF(p, s) 也 将 是 重 编译 时 
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有 用 的 集合 。 另 一 方面 ， 我 们 将 基于 “一 个 变量 必定 会 被 一 个 过 程 调用 注销 ”的 事实 进行 私 
有 化 这 样 的 优化 ， 所 以 ，MUSTKILL(p, s) 也 将 会 被 用 于 保存 重 编 译 信息 。 

在 M0D 的 例子 中 ， 我 们 来 考虑 -一 下 为 了 保证 ， 程 序 中 某 个 过 程 修改 后 的 正确 性 ， 程 序 编译 
器 必须 做 的 事情 。 

(1) 首先 ， 程 序 编译 器 必须 重新 计算 程序 中 每 个 过 程 调用 点 的 M0D 集 合 。 

(2) 对 于 程序 中 每 个 调用 点 sSEp， 如 果 

MUSTNOTMOD(y, s) N MOD(s) + Ø 
那么 重 编译 过 程 p。 

MUSTNOTMOD 集 合 的 计算 依赖 于 模块 编译 器 中 所 使 用 的 优化 ， 精 确 地 收集 这 些 信息 可 能 会 
需要 很 大 的 代价 。 但是， 在 实践 中 ， 简 单 的 近似 的 方法 往往 具有 比较 好 的 效果 。 下 面 是 两 个 
这 样 的 计算 MUSTNOTM00 的 近似 方法 : 

(1) MUSTNOTMOD(p, s) = 一 M90D(s)， 基 中 一 MOD(s) 是 p 的 最 近 一 次 编译 的 结果 。 当 然 ， 模 块 |596 
编译 器 不 可 能 依赖 于 上 次 编译 中 任何 不 真 的 结果 。 598 

(2) MUSTNOTMOD(p, s) = 一 MOD(s)REF(p)。 这 个 近似 估计 比 上 一 个 估计 更 进 了 一 步 ， 因 为 
它 不 会 因为 仅仅 通过 过 程 p 传 递 的 变量 的 改变 而 重新 编译 。 

R" 编 程 环境 的 设计 者 采用 了 第 二 个 近似 估计 [63，50]。 
11.5 小 结 

虽然 ， 过 程 间 分 析 在 优化 单 处 理 器 代码 方面 所 起 的 作用 有 限 ,但 是 它 在 自动 并 行 化 系统 
中 是 十 分 重要 的 。 为 了 充分 发 挥 过 程 间 分 析 的 效果 、， 多 种 分 析 问 题 必 须 被 解决 。 这 些 问题 分 
为 两 种 类 型 : 

(1) 前 向 传播 问题 ， 这 类 问题 确定 给 定 过 程 被 调用 的 上 下 文 。 

(2) 后 向 传播 问题 ， 这 类 问题 确定 过 程 调用 的 副作用 。 

此 外 ， 过 程 间 分 析 问 题 可 以 按照 如 下 方法 分 类 : . 

(1) 流 不 敏感 问题 ， 这 类 问题 不 需要 沿 调用 链 跟踪 过 程 的 控制 流 图 就 可 得 到 精确 的 解 ; 

(2) 流 敏感 问题 ， 这 类 问题 需要 跟踪 控制 流 才能 得 到 精确 的 解 。 

我 们 已 经 证 明了 流 不 敏感 的 前 向 问题 和 后 向 问题 都 可 以 在 O(N+ EV) 的 时 间 内 解决 ， 其 
中 ，N 是 程序 中 过 程 的 数目 ，E 是 调用 点 的 个 数 ，V 是 程序 中 全 局 变量 和 参数 的 个 数 。 

在 最 一 般 的 情况 下 ， 流 敏感 问题 已 被 证 明 是 很 难 解决 的 。 但 是 对 于 典型 的 编程 语言 ， 可 
以 在 调用 图 大 小 的 多 项 式 时 间 内 得 到 较 好 的 近似 结果 。 在 实践 中 ， 这 些 算法 具有 近似 线性 的 
复杂 度 。 . 

单个 变量 的 过 程 间 问 题 通过 自然 的 方式 可 以 扩展 为 处 理 值 域 和 符号 值 的 形式 。 此 外 ， 还 
可 以 将 其 扩展 用 于 分 析 数 组 变量 的 规则 区 域 的 副作用 。 在 这 两 种 情况 下 ， 运 行 时 间 将 按 一 个 
因子 扩大 ， 这 个 因子 和 所 采用 的 近似 估计 的 网 格 的 最 大 深度 成 比例 。 

为 了 实用 ， 过 程 间 分 析 系 统 必须 尽 可 能 减 小 由 于 一 个 局 部 的 程序 修改 而 必须 被 重新 编译 
的 过 程 的 数目 。 用 户 将 无 法 忍受 对 一 个 过 程 的 简单 修改 就 会 造成 对 整个 程序 的 重新 编译 的 编 ”[599] 
译 系统 。 要 达到 这 一 目的 所 使 用 的 函数 最 好 能 嵌入 在 一 个 更 通用 的 程序 管理 系统 中 。 


11.6 实例 研究 
作者 熟悉 如 下 一 些 过 程 间 编译 系统 : 
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(1) 由 Rice 大 学 开发 的 向 量化 和 并 行 化 系统 PFC{20]， 使 用 了 过 程 间 常 数 传播 和 数组 副 作 
用 分 析 以 改进 编译 器 的 依赖 分 析 。 依 赖 分 析 的 结果 可 以 由 一 个 称 为 PTOOL 的 特定 浏览 器 展示 
出 来 。PFC 被 后 来 的 包括 ParaScope 在 内 一 些 系 统 用 作 依 赖 测试 服务 程序 ， 这 些 系 统 将 在 下 面 
提 到 。 

(2) Ardent Titan 编译 器 ， 这 个 编译 器 将 在 后 面 进一步 讨论 。 

(3) 同样 由 Rice 大 学 开发 的 R" 编 程 环境 [63，89，90] 是 第 一 个 被 设计 来 支持 过 程 间 分 析 的 
实用 编译 器 系统 。 在 第 11.4 节 中 讨论 的 重 编译 分 析 在 R" 系 统 中 得 到 首次 尝试， 其 中 实现 了 党 
数 传播 、ALIAS、M0D 和 REF 。 

(4) ParaScope[79] 是 月 "的 一 个 后 继 者 ， 被 设计 为 在 程序 并 行 化 中 使 用 过 程 间 信息 。EFIAT 
过 程 间 分 析 框 架 1135] 原 本 是 为 ParaScope 设 计 的 ， 后 来 被 SUIE 编 译 器 (UL PoC) 所 采用 。 虽 
然 本 身 也 会 计算 几 个 过 程 间 问题 的 解 ， 但 ParaScope 起 初 使 用 了 PFC 作 为 过 程 间 数组 区 域 分 析 
的 服务 程序 。 

(5) D 系 统 [6]， 起 初 是 基于 ParaScope， 它 是 为 了 支持 “高 性 能 Fortran” 的 编程 而 开发 的 。 
它 包 括 一 个 FIAT 的 扩展 框架 ， 用 于 在 用 户 正在 给 定 程序 的 上 下 文 进行 编辑 时 实现 过 程 间 信 息 
的 交互 式 的 重 编译 。 除 了 传统 的 分 析 和 优化 ，D 系 统 还 在 过 程 间 传 播 数 组 分 布 信息 ， 支 持 
“Fortran D” 和 “高 性 能 Fortrran” 的 编译 [79]。 

(6) Stanford 的 SUIF 编 译 器 的 构造 借助 了 过 程 间 框架 FIAT 的 帮助 ，FIAT 是 一 个 帮助 快速 
建立 过 程 间 系统 原型 的 工具 [135]。 这 个 编译 器 实现 一 个 包括 常数 传播 、 数 组 注销 分 析 和 活跃 
分 析 在 内 的 完整 的 过 程 间 分 析 和 集合 。 在 最 近 的 实验 中 ， 编 译 器 通过 了 来 自 NAS、Spec-92 和 
Perfect 基 准 测试 程序 包 的 程序 测试 ， 而 不 需要 修改 任何 源 程序 。 在 这 些 总 共 27 个 程序 中 ，16 
个 借助 利用 过 程 间 优 化 的 结果 得 到 了 更 多 的 并 行 循 环 。 其 中 的 4 个 程序 仅仅 是 由 于 过 程 间 的 优 
化 而 得 到 了 非常 明显 的 加 速 比 [131]。 

(7) Convex 应 用 编译 器 [213]， 它 模仿 了 R" 和 ParaScope 系 统 ， 是 第 一 个 实现 对 多 个 文件 构 
成 的 整个 程序 进行 过 程 间 分 析 的 商用 系统 。 这 个 应 用 编译 器 执行 了 一 整套 的 作业 ， 包 括 为 并 
行 化 所 做 的 过 程 间 分 析 和 优化 ， 计 算 过 程 间 流 敏感 问题 的 解 ， 基 于 过 程 间 常 数 的 克隆 ， 以 及 
应 用 数组 区 域 分 析 。 

除 此 之 外 ， 还 有 一 系列 的 商用 和 研究 系统 使 用 过 程 间 信 息 。 

Ardent Titan 编 译 器 在 一 开始 就 是 为 过 程 间 分 析 和 优化 而 设计 的 。 由 于 Titan I 的 主要 目标 
应 用 是 浮 点 科学 计算 和 图 形 处 理 ， 所 以 编译 器 设计 者 感到 某 些 形式 的 过 程 间 分 析 是 必 不 可 少 
的 。 图 形 处 理 代码 经 常会 使 用 一 些小 的 C 语 言 核心 程序 : 3 x 3 和 4 x 4 的 矩阵 乘法 是 经 常用 到 且 
非常 重要 的 。 由 于 C 语 言 中 没有 提供 类 似 于 Fortran 中 的 对 别名 的 限制 〈 见 第 12 章 )， 所 以 为 了 
能 正确 地 向 量化 这 些 核心 程序 ， 优 化 器 必须 知道 调用 上 下 文 信息 。 大 型 科学 计算 代码 ， 尤 其 
是 那些 可 以 向 量化 的 代码 ， 也 经 常 是 围绕 一 组 为 数 不 多 的 可 向 量化 的 Fortran 核 心 程序 而 建立 
的 ;在 早期 编译 器 比较 差 的 向 量 机 上 ， 如 果 编 译 器 不 能 向 量化 这 些 核心 程序 ， 那 么 这 些 核心 
程序 将 被 汇编 代码 所 代替 。 

无 疑 Ardent Titan 编 译 器 可 以 向 量化 这 些 核心 程序 ， 但 它 能 否 有 效 地 并 行 化 这 些 代码 有 很 
多 疑问 。 这 些 核心 代码 通常 是 一 些 单个 循环 ， 这 意味 着 如 果 没 有 过 程 间 分 析 ， 编 译 器 必须 并 
行 化 和 向 量化 相同 的 循环 。 如 果 一 个 在 向 量 状态 下 的 处 理 器 能 够 使 内 存 总 线 饱 和 ， 那 么 给 我 
们 的 感觉 是 这 样 的 并 行 循环 会 比 未 并 行 版 本 运行 更 加 慢 (这 一 点 后 来 被 证 明 是 正确 的 )。 但 是 ， 
许多 这 类 核心 程序 是 在 循环 中 调用 的 一 一 如 果 可 以 使 用 过 程 间 信息 ， 这 些 循 环 可 以 很 容易 并 
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且 很 有 效 地 被 并 行 化 。 

在 确定 了 过 程 间 分 析 是 必要 的 之 后 ， 下 一 步 就 是 要 决定 实现 哪些 形式 的 分 析 。 编 译 器 设 
计 者 选择 了 两 种 形式 : 

(1) 过 程 的 内 联 : 正如 上 文 所 讨论 到 的 ， 其 中 最 直接 的 显然 是 谋求 内 联 。 

(2) MERA: 对 于 那些 不 适合 被 内 联 的 并 行 子 程序 ， 编 译 器 为 用 户 提供 了 一 组 命令 ， 
用 来 声明 带 有 相应 存储 控制 的 并 行 安全 例 程 。 在 那些 情况 下 (也 仅仅 在 那些 情况 下 )， 编 译 器 
可 以 并 行 化 包含 子 程序 调用 的 循环 。 

做 内 联 这 个 决定 具有 很 多 方面 的 作用 ， 其 中 一 些 是 预料 到 的 ， 还 有 一 些 是 没有 预料 到 的 。 
其 中 主要 的 设 有 预料 到 的 一 件 事 是 优化 器 中 很 多 地 方 需要 为 内 联 做 一 些 调整 ， 尤 其 是 当 把 一 
个 C 函 数 内 联 到 一 个 Fortran 函 数 中 的 时 候 。 其 中 我 们 正确 地 预料 到 的 一 个 作用 是 内 联 对 于 中 间 
表示 的 影响 。 在 做 内 联 或 其 他 形式 的 过 程 间 分 析 时 ， 编 译 器 必须 多 次 访问 编译 单元 (或 过 程 )。 
每 次 访问 时 都 扫描 过 程 并 作 语 法 分 析 的 做 法 显然 是 不 理想 的 。 一 个 更 好 的 解决 方案 是 使 中 间 
表示 成 为 “永久 的 ”不 被 干扰 的 形式 ， 以 便 编 译 器 就 可 以 在 中 间 代 码 的 层次 上 迅速 地 集成 其 
他 过 程 的 中 间 表 示 。 

Ardent 编 译 器 支持 一 种 可 以 把 将 要 内 联 的 过 程 做 成 库 图 数 的 工具 。 用 户 通常 希望 内 联 的 
一 些 过 程 ， 如 图 形 处 理 中 经 常用 到 的 LINPACK 中 的 BLAS， 可 以 用 “ 预 编译 过 ”的 形式 存储 
在 一 个 库 中 ， 这 样 即使 在 源 程序 不 可 用 的 情况 下 ， 它 们 也 可 以 被 很 容易 地 内 联 。 用 户 可 以 通 
过 在 命令 行 给 出 库 文件 名 称 的 方式 调用 这 些 库 函数 。 例 如 ， 考 虑 如 下 计算 一 个 直角 三 角形 斜 
边 的 简单 例 程 : 

REAL FUNCTION HYPOT(X,Y) 

HYPOT = X¥#2 + Y **2 


RETURN 
END 


如 果 这 个 例 程 已 被 编译 到 一 个 库 中 ， 并 且 在 编译 处 理 三 角形 数组 循环 
DO l= 1, N 
A(I) = HYPOT(B(I), C(I)) 
ENDDO 
的 命令 行 中 给 出 这 个 库 的 名 称 ， 那 么 Ardent 编 译 器 将 生成 循环 


DO I=1,N 
ACI) = BCL )#*24C (1 )**2 
ENDDO 


这 个 循环 可 以 被 Titan 向 量化 和 并 行 化 ， 并 得 到 近似 于 优化 的 性 能 。 


11.7 历史 评述 与 参考 文献 

过 程 间 分 析 是 由 在 20 世 纪 70 年 代 所 发 表 的 一 系列 工作 中 引入 的 。Allen 给 出 了 在 没有 递归 
的 情况 下 如 何 进行 程序 的 过 程 间 数 据 流 分 析 [13]。 后 来 ， 在 一 篇 没有 发 表 的 摘要 中 ，Allen 和 
Schwartz 把 这 项 技术 扩展 到 存在 递归 的 程序 中 。Spilliman[252] 描 述 了 在 IBM PL/I 编 译 器 中 用 
于 单个 文件 中 过 程 的 过 程 间 分 析 。 这 个 实现 的 主要 目标 是 分 析 指 针 所 指向 的 内 容 。 

Barth[38] 是 第 一 篇 发 表 的 讨论 可 能 问题 和 必定 问题 的 论文 。Banning[37] 介 绍 了 流 敏 感 和 
流 不 敏感 问题 的 概念 并 且 给 出 了 解决 这 些 问 题 的 多 项 式 时间 算 法 。Myers[220] 提 出 了 一 个 针对 
流 不 敏感 问题 的 通用 算法 ， 他 证 明了 该 算法 在 存在 别名 的 情况 下 这 些 问题 是 NP 完全 补 问题 。 
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Myers[220], Sharir#fPnueli[246], Harrison[139], Landi#fRyder[197], Choi, Burke#f 
Carini[74] ， 以 及 Hall，Murphy 和 Amarasinghe[136] 等 文献 描述 了 流 敏感 分 析 的 算法 。11.2.3 节 
介绍 的 由 Cooper 和 Kennedy[85，86，87，88] 提 出 的 过 程 间 流 不 敏感 分 析 算 法 是 11.2.4 节 介绍 
的 别名 分 析 算 法 [88] 的 原来 形式 。11.2.5 节 介绍 的 流 敏感 常数 传播 算法 是 基于 Callahan, Cooper, 
Kennedy 和 Torczon[56] 的 工作 。 流 敏感 注销 算法 是 在 Callahan[53] 提 出 的 算法 的 基础 上 建立 的 ， 
但 这 个 特有 的 方程 是 新 提出 的 。 

过 程 间 符号 分 析 已 由 包括 Haghighat 和 Polychronopoulos[1291，Irigoin ，Jouvelot 和 Triolet 
[160]， 以 及 Hall，Murphy 和 Amarasinghe[136] 在 内 的 若干 研究 人 员 讨 论 过 。11.2.7 中 的 处 理 方 
法 依据 Havlak[141] 的 做 法 。 

11.2.8 节 讨论 的 数组 区 域 分 析 是 许多 作者 的 研究 工作 的 主题 ， 包 括 Triolet，Irigoin 和 
Feautrier[261] ，Burke 和 Cytron[49]，Callahan 和 Kennedy[59，52]，Li 和 Yew[200] ，Havlak 和 
Kennedy[142], ，Irigoin ，Jouvelot 和 Triolet[160]， 以 及 Hind 等 人 [148]。 若 于 研究 人 员 提 出 了 流 
敏感 数组 分 析 的 算法 ， 包 括 Irigoin[159] ，Iitsuke[156] ，Tu 和 Padua[263]， 以 及 Hall，Murphy 
和 Amarasinghe[136]。 

Walter[267}, Weihl[274], ，Spillman[252]，Burkef48]， 以 及 Shivers[248 249, ，250] 对 调用 
图 分 析 进 行 了 研究 。11.2.9 节 介绍 的 调用 图 构造 算法 是 基于 Ryder[240] 中 的 一 个 算法 。Callahan 
等 人 [54J 证 明 这 个 算法 在 递归 情况 下 收敛 。Hall 和 Kennedy[133，130] 给 出 精确 度 稍 差 的 算法 ， 
但 这 个 算法 能 在 结果 调用 图 大 小 的 线性 时 间 内 得 到 近似 的 结果 。 

内 联 替 换 已 有 广泛 的 研究 [101，234]。Cooper，Hall 和 Torczon[83] 提 到 了 内 联 替 换 的 缺点 。 
Ardent Titan 编 译 器 中 的 内 联 工具 在 Allen[17] 中 描述 。Cooper，Hall 和 Kennedy[78，80，81] 研 
究 了 过 程 克隆 。Hall，Kennedy 和 McKinley[134] 中 研究 了 混合 优化 。 这 篇 文章 提 到 的 与 过 程 
克隆 紧密 相关 的 若干 优化 技术 和 算法 在 以 下 论文 中 有 研究 : Wegman[271] 关 于 过 程 内 分 析 的 
论文 ，Bulyonkov[47] 以 及 Ruf 和 Weise[239] 关 于 部 分 计 值 的 论文 ，Johnstonf162] 的 关于 APL 的 
动态 编译 的 论文 ， 以 及 Chambers 和 Ungar[70] 关 于 SELF 语言 的 论文 。 

11.4 节 介绍 的 程序 管理 的 方法 是 在 R" 编 程 环境 [63，86，87] 中 首先 提出 的 。 重 编译 分 析 由 
Burke，Cooper，Kennedy 和 Torczon[91，50] 提 出 。 

本 章 中 的 论述 来 自 于 Cooper 等 人 [82] 的 讲座 。 


习题 . 
11.1 比较 过 程 调用 图 和 绑 定 图 。 对 于 给 定 的 程序 ， 给 出 两 种 图 大 小 的 公式 。 
11.2 假设 你 在 实现 一 种 会 改变 数据 数组 布局 的 优化 。 下 面 例子 说 明 数 据 变换 的 一 个 问题 : 


SUBROUTINE DATA1() 
INTEGER A(M,N) 
CALL FOO(A) 

END 

SUBROUTINE DATA2() 
INTEGER B(M,N) 
CALL FOO(B) 

END 

SUBROUTINE FOO(T) 
INTEGER F(M,N) 


END 
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如 果 我 们 决定 把 A 的 布局 改 为 ACN,M)， 但 是 数组 B 保 持 不 变 ， 那 么 我 们 将 在 子 程序 F00 中 遇 到 问 
题 ， 因 为 它 的 形式 参数 会 有 两 种 数据 布局 形式 。 你 能 设计 一 种 过 程 间 分 析 来 检测 这 样 的 问题 
吗 ? 

11.3 在 类 似 于 Pascal 的 程序 设计 语言 中 ， 作 用 域 是 可 以 嵌 套 的 ， 其 中 一 个 国 数 可 以 在 另 一 
个 函数 内 部 定义 ， 并 且 父 函数 的 局 部 数据 在 子 国 数 中 是 可 见 的 。 给 出 一 个 用 于 这 样 的 语言 能 
MOD 分 析 算 法 。 

11.4 Grove 和 Torczon[127] 发 现在 M0D 分 析 之 后 构造 返回 跳 转 函 数 更 快 。 给 出 一 个 这 个 结果 
的 可 信和 的 解释 。 
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语言 和 硬件 设计 中 的 依赖 


12.1 引言 

到 现在 为 止 ， 本 书 的 重点 在 于 运用 依赖 分 析 结果 优化 用 Fortran 编 写 的 程序 。 虽 然 ， 这 个 
重点 是 基本 概念 历史 发 展 过 程 的 自然 产物 ， 它 隐 含 依赖 仅 对 Fortran 程 序 的 应 用 是 有 帮助 的 。 
但 是 ， 这 种 含义 严重 地 低估 了 依赖 分 析 的 能 力 ， 依 赖 分 析 可 以 运用 在 任何 语言 和 任何 数组 和 
循环 起 作用 的 变换 的 上 下 文中 。 本 章 将 对 依赖 分 析 的 适用 范围 进行 扩展 ， 把 它 用 于 处 理 比 
Fortran 更 复杂 的 语言 ， 以 及 运用 到 语言 编译 和 优化 之 外 的 领域 中 。 

从 一 开始 ，Fortran 就 被 设计 成 可 以 进行 高 度 优化 的 语言 。Fortran 最 初 设想 的 简单 输入 和 
问题 领域 ， 对 优化 的 强烈 需求 ， 以 及 语言 的 早期 发 展 过 程 ， 所 有 这 些 因素 都 导致 Fortran 缺 乏 
很 多 更 现代 化 的 语言 中 常见 的 指针 、 结 构 等 特征 。 本 章 第 2 节 将 介绍 在 把 依赖 分 析 扩展 到 处 理 
更 为 现代 的 语言 中 的 一 些 问题 ， 例 如 C 语 言 。 

第 3 节 介 绍 依赖 分 析 在 硬件 设计 中 的 一 些 应 用 。 现 代 硬件 设计 通常 是 由 一 种 基于 语言 的 方 
案 完成 的 ， 用 类 似 于 通用 程序 设计 语言 的 高 级 语言 来 描述 被 设计 的 设备 。 然 后 ， 这 些 描述 由 
工具 (基本 上 是 编译 器 ) 翻译 成 可 以 根据 其 进行 实际 芯片 生产 的 低层 描述 。 依 赖 分 析 是 改善 
这 个 设计 流 中 的 工具 的 有 用 技术 。 


12.2 优化 C 语 言 

Fortran 的 设计 者 关注 的 是 科学 计算 代码 的 运行 时 性 能 ， 在 这 样 想法 的 指导 下 ， 只 有 当 
Fortran 编 译 器 生成 的 代码 的 性 能 是 有 经 验 程 序 员 手写 的 并 经 过 性 能 调整 的 汇编 代码 性 能 的 两 
倍 去 右 时 ，Fortran 语 言 才 会 被 用 户 所 接受 ( 见 Backus[30])。 由 于 这 个 原因 ，Fortran 语 言 更 多 
地 面向 在 科学 计算 程序 中 有 用 的 且 可 以 被 自动 优化 的 结构 ; 这 样 ，Fortran 中 就 忽视 了 对 于 数 
组 之 外 的 其 他 数据 结构 的 支持 。 l 

后 来 的 语言 通过 引入 对 高 级 数据 结构 的 支持 扩展 了 程序 设计 应 用 领域 的 范围 ， 但 这 样 做 
的 结果 也 增加 了 编译 器 的 困难 。 同 时 ， 这 些 语言 通过 赋予 用 户 更 多 的 性 能 方面 的 控制 能 力 而 
使 得 优化 不 再 是 程序 的 准备 过 程 中 所 必需 的 。C 语 言 就 是 这 样 的 一 个 很 好 的 例子 。C 起 初 就 被 
设计 成 了 “有 类 型 的 汇编 语言 ” ， 它 允许 熟练 的 程序 员 可 以 在 相对 很 高 的 层次 指定 想 要 的 各 个 
精确 的 硬件 操作 。 例 如 ， 前 增 和 后 增 在 指令 集中 有 很 自然 的 对 应 ， 这 一 点 在 C 语 言 的 早期 发 展 
过 程 中 是 非常 显著 的 。 现 在 已 经 基本 不 用 了 的 “寄存 器 ”变量 的 声明 在 早期 的 C 语 言 中 实际 上 
意味 着 “占用 一 个 硬件 寄存 器 ”。 

给 定 了 C 结 构 和 硬件 本 身 之 间 的 对 应 关系 ， 在 很 多 情况 下 ，C 的 原则 是 : 不 仅 不 需要 优化 ， 
而 且 不 希望 进行 优化 。 例 如 ， 操 作 系 统 是 C 语 言 很 常用 的 一 个 领域 。 在 操作 系统 中 ， 经 常 通过 
读 和 写 特 殊 的 内 存 地 址 的 方式 来 访问 诸如 键盘 的 外 部 设备 ， 这 样 就 导致 类 似 于 

while (! (t=*p)) ; 


的 代码 。 这 样 一 个 代码 段 可 能 被 用 来 持续 地 轮 询 键盘 ， 直 到 有 一 个 字符 被 键入 为止 《其 中 p 存 
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帮 的 是 对 应 于 键盘 的 内 存 位 置 的 地 址 )。 由 于 p 所 指向 的 内 容 看 起 来 是 循环 不 变量 (至 少 在 没 
有 声明 成 “volatile” 的 情况 下 是 这 样 的 ) ， 所 以 ， 优 化 器 可 能 会 把 读 取 p 所 指 的 内 容 的 操作 移 
到 循环 之 外 。 这 样 ， 系 统 将 永远 无 法 读 取 键 盘 的 内 容 ， 导 致 系统 挂 起 。 类 似 这 样 的 结构 在 C 的 
早期 应 用 中 是 非常 普遍 的 。 

由 于 C 的 这 样 的 早期 使 用 和 原则 ，C 在 最 初 的 目标 更 多 地 是 针对 可 用 人 性， 而 不 是 针对 优化 。 
C++ 继承 了 这 样 的 趋势 ， 在 其 中 增加 了 若干 简化 程序 开发 的 特征 ， 但 这 是 以 损失 优化 为 代价 
的 。 尽 管 在 语言 的 方向 上 ， 这 两 种 语言 有 着 这 样 的 趋势 ， 但 是 优化 对 这 两 种 语言 起 着 至 关 重 
要 的 作用 。 机 器 的 体系 结构 已 经 改变 ， 指 令 集 不 再 允许 对 C 中 结构 的 直接 映射 而且，C 和 
C++ 的 应 用 领域 也 扩展 了 ， 例 如 用 于 不 仅 希望 优化 而 且 需 要 优化 的 技术 计算 领域 。 这 样 ， 尽 
管 C 的 设计 中 没有 考虑 到 运用 优化 ， 但 是 现在 ， 优 化 已 经 成 为 任何 一 个 成 功 的 C 语 言 编译 器 的 
重要 组 成 部 分 。 | 

为 了 说 明 由 于 C3 引起 的 ， 在 面向 先进 体系 结构 的 优化 中 存在 的 一 些 挑战 ， 考 虑 如 下 简单 例 程 : 


void vadd(double *a, double *b, double *c, int n) { 
while (n--) 
katt = +* b++ + * c++; 


} 


”这 个 例 程 是 一 个 简单 的 向 量 加 ， 如 果 把 它 写 成 等 价 的 Fortran 程 序 ， 是 很 容易 向 量化 和 优化 的 。 


但 是 ， 它 的 C 版 本 的 向 量化 或 优化 就 很 困难 了 ， 它 包含 如 下 一 些 问 题 : 

(1) 指针 : 利用 C 指 针 访 问 内 存 ， 很 难 分 辩 被 访问 的 是 哪些 内 存单 元 ， 尤 其 是 在 指针 是 作 
为 子 程序 的 参数 进行 传递 的 情况 下 。Fortran 中 等 价 的 代码 会 使 用 很 容易 分 析 的 数组 。 数 组 也 
可 以 在 C 版 本 中 运用 ,但 是 ， 在 书写 这 样 的 循环 时 ， 使 用 指针 已 经 成 为 惯用 的 做 法 。 

(2) 别名 : 别名 问题 和 指针 问题 有 很 密切 的 关系 。Fortran 标 准 保证 数组 以 指针 方式 传 给 
子 程序 时 ， 不 会 相互 覆盖 ， 因 而 不 会 给 向 量化 造成 危害 。 换 句 话 说， 不 同 的 参数 表示 不 同 的 
存储 位 置 。C 标 准 没 有 提供 这 样 的 保证 。 所 以 ，C 编 译 器 即使 能 精确 判断 出 每 个 不 同 指针 所 访 
问 的 内 存单 元 ， 也 不 能 直接 向 量化 上 面 的 循环 。 

(3) 副作用 操作 符 : 在 前 面 几 章 中 提 到 ， 归 纳 变量 替换 是 和 常规 的 强度 削减 优化 相反 的 
过 程 。C 中 的 副作用 操作 符 ， 尤 其 是 前 增 和 后 增 操作 ， 鼓 励 程序 员 用 手工 的 方式 削减 访问 多 维 
数组 所 用 到 的 计算 强度 。 由 此 ，C 优 化 器 就 必须 在 类 似 于 归纳 变量 替换 这 样 的 变换 上 进行 额外 
的 工作 ， 以 便 在 显 式 呈现 数组 寻 址 用 到 的 下 标 计算 。 

(4) MI: Fortran 中 的 DO- 循 环 能 精确 地 指出 返 代 的 范围 ， 这 对 于 依赖 分 析 来 说 是 十 分 
理想 的 。 进 而 ， 还 加 上 一 些 诸如 不 允许 跳 人 循环 这 样 的 限制 ， 从 而 可 以 使 优化 变 得 简单 。C 中 
没有 类 似 于 Fortran 的 对 于 循环 的 这 类 限制 ， 也 不 容易 得 到 依赖 分 析 所 需要 的 选 代 范围 。 

这 一 节 ， 我 们 概述 C 语 言 在 高 级 优化 中 存在 的 这 样 那 样 问题 。 在 大 多 数 情况 下 ， 前 面 各 章 
介绍 的 用 于 Fortran 的 理论 都 可 以 很 容易 地 扩展 ， 用 于 解决 C 语 言 和 其 他 类 似 语言 所 引入 的 问题 。 


12.2.1 指针 
无 疑 ，C 语 言 对 优化 引入 的 最 具 挑 战 意义 的 问题 是 它 不 加 限制 地 使 用 指针 。 指 针 引 入 了 两 


个 基本 的 问题 : 
(1) 一 个 指针 变量 可 以 在 它 的 使 用 过 程 中 指向 不 同 的 内 存单 元 。 确 定 在 任何 时 刻 通过 一 
个 指针 间接 访问 的 内 存单 元 是 一 个 难题 。 





CH Pte BH hit PHRA 419 


(2) 在 任何 给 定 的 时 间 ， 一 个 给 定 的 内 存单 元 可 以 被 多 个 指针 变量 访问 ， 造 成 内 存单 元 
的 别名 。 这 不 仅 意味 着 不 同 的 指针 变量 可 以 指向 同一 单元 ， 而 且 意 味 着 在 检测 C 中 的 数组 引用 
时 ， 还 必须 检测 所 有 可 能 为 这 个 单元 别名 的 指针 变量 。 

换 名 话说， 指针 不 仅 能 访问 不 同 的 变量 ， 而 且 还 允许 同一 变量 被 不 同 的 名 字 访 问 。 造 成 
的 后 果 就 是 依赖 分 析 变 成 一 个 非常 复杂 和 开销 很 大 的 过 程 。 

依赖 测试 策略 

在 指针 存在 的 情况 下 ， 一 个 C 编 译 器 如 何 使 用 第 3 章 中 介绍 的 依赖 测试 机 制 进 行 依赖 测 
W? 正如 在 引言 部 分 所 指出 的 ，C 程 序 中 的 习惯 用 法 更 倾向 通过 指针 的 间接 引用 ， 而 不 是 通过 
数组 下 标 表 达 式 访问 一 个 数组 的 不 同 元 素 。 由 于 第 3 章 中 的 依赖 测试 过 程 是 检查 带 下 标的 数组 
引用 对 ， 所 以 编译 器 必须 通过 一 些 方法 把 每 个 类 似 “*p” 这 样 的 通过 指针 的 间接 访问 转换 为 
等 价 的 下 标 数组 引用 。 一 种 策略 是 给 每 个 间接 引用 *p 分 配 一 个 编译 器 生成 的 名 字 n， 这 个 名 字 
进入 符号 表 ， 代 表 所 有 可 以 引用 和 *p 同 样 的 存储 单元 的 指针 引用 。 更 明确 地 说 ， 如 果 n 是 给 *p 
分 配 的 名 字 ， 那 么 每 个 通过 p 的 间接 引用 可 以 被 翻译 成 类 似 *(&n+e) 的 形式 ， 其 中 e 是 编译 时 间 
知道 或 不 知道 的 任意 表达 式 。 换 名 话说 ， 我 们 希望 把 每 个 这 样 的 引用 写成 等 价 的 数组 表达 式 

nfe] 

注意 ， 在 p 的 声明 作用 域 范围 之 内 ， 名 字 n 将 伴随 *p 的 每 次 出 现 ， 但 是 每 次 出 现时 都 配 以 
不 同 的 索引 表达 式 。 如 果 p 在 可 见 程序 范围 内 被 以 规则 的 方式 更 新 ， 例 如 通过 循环 中 的 后 增 操 
作 ， 那 么 我 们 可 能 会 用 类 似 n[a*itc] 的 表达 式 代替 *p， 共 中 i 是 所 在 循环 的 循环 索引 变量 ，a 
是 编译 时 的 常数 ，c 是 某 个 在 循环 内 不 改变 值 的 表达 式 。 一 旦 所 有 *Pp 的 实例 都 有 了 相应 的 下 标 
数组 引用 式 ， 就 可 以 按照 第 3 章 中 的 描述 进行 依赖 测试 了 一 一 镜 试 每 个 伪 数 组 n 的 引用 对 。 

这 个 方案 的 问题 在 于 可 能 有 通过 其 他 指针 变量 (例如 q) 的 间接 访问 ， 编 译 器 无 法 证 明 其 
不 同 于 *p。 换 句 话说， 在 没有 其 他 信息 的 情况 下 ， 必 须 假设 *p 和 *q 会 有 重 又 。 每 个 这 样 的 引用 
都 必定 与 同 *p 相 关 的 同一 名 字 n 联 系 。 而 且 ， 我 们 也 无 法 知道 *p 和 *q 相 对 于 n 的 起 始 存 储 单元 的 
偏 移 量 之 间 的 差 ， 除 非 以 编译 器 可 见 的 形式 、 用 包含 其 中 一 个 赋值 语句 为 给 另 一 个 定 值 。 在 最 
坏 的 情况 下 ， 如 果 指 针 的 任何 两 个 间接 引用 无 法 区 分 ， 那 么 依赖 测试 就 会 退化 为 标记 任何 引用 
对 之 间 的 依赖 ， 这 样 ， 将 排除 所 有 的 优化 。 下 面 几 段 介绍 两 种 避免 这 种 可 能 性 的 策略 。 


安全 性 断言 

在 一 个 没有 过 程 间 分 析 的 分 别 编译 系统 中 ， 指 针 间 题 是 不 可 能 解决 的 。 因 为 不 知道 一 个 
指针 所 有 可 能 引用 到 的 地 址 (只 有 在 分 析 整 个 程序 的 情况 下 才能 获得 )， 编 译 器 必须 保守 地 假 
设 通过 两 个 不 同 指针 的 任何 两 个 引用 ， 或 通过 一 个 指针 的 引用 和 一 个 非 局 部 数组 访问 ， 它 们 
之 间 是 相互 依赖 的 。 事 实 上 ， 这 个 假设 意味 着 所 有 的 引用 对 都 被 假定 存在 依赖 ， 所 以 无 法 进 
行 任何 优化 。 

在 一 个 单独 的 编译 系统 中 严格 的 自动 分 析 是 无 法 实现 的 ， 但 是 存在 着 一 些 有 效 的 折衷 方 
Fe 虽然， 编译 器 必须 假设 指针 可 以 不 加 限制 地 使 用 ， 但 是 在 实际 程序 中 ， 指 针 是 以 规范 的 、 
能 为 程序 员 理解 的 常规 方式 使 用 的 《如 果 指 针 的 用 法 过 于 复杂 ， 程 序 员 无 法 理解 ， 那么 这 个 
程序 很 可 能 也 无 法 工作 )。 有 一 个 通用 的 但 不 是 不 可 改变 的 规则 : 在 一 个 时 刻 ， 通 常 只 有 一 个 
指针 指向 一 个 数组 ， 而 作为 函数 参数 传递 的 指针 通常 指向 相互 独立 的 存储 单元 。 这 类 用 法 可 
以 通过 使 用 以 下 两 个 制导 或 编译 器 选项 来 指明 : 

(1) 安全 参数 : 一 个 国 数 的 所 有 的 指针 参数 保证 指向 不 同 的 存储 位 置 。 
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(2) 安全 指针 : 所 有 指针 变量 (无 论 是 参数 、 局 部 变量 或 全 局 变量 ) 都 保证 指向 不 同 的 
存储 单元 。 

这 两 个 断言 在 多 数 程序 中 是 成 立 的 ， 并 且 当 它们 不 成 立时 ， 程 序 员 一 般 也 知道 这 个 情况 。 
通过 显 式 的 断言 ， 这 两 个 程序 制导 使 编译 器 可 以 区 分 作为 参数 传递 的 不 同 指针 导致 的 间接 引 
用 ， 这 样 就 使 编译 器 中 有 意义 的 依赖 分 析 和 优化 成 为 可 能 。 

整个 程序 的 分 析 

指针 的 问题 在 单独 的 编译 系统 中 无 法 解决 ， 在 对 整个 程序 能 够 进行 分 析 的 情况 下 ， 要 解 
决 这 个 问题 也 存在 困难 。 如 果 编 译 器 能 检查 所 有 的 调用 过 程 ， 那 么 编译 器 就 可 以 确定 一 个 指 
针 可 能 引用 的 全 部 的 变量 的 集合 。 知 道 了 这 一 点 ， 通 过 两 个 指针 的 间接 引用 *p 和 *q 在 p 和 q 能 
够 指向 的 变量 集合 相交 为 空 的 情况 下 就 不 可 能 重 琶 。 这 就 使 问题 就 进入 到 可 解决 问题 的 范围， 
虽然 现在 所 有 的 解决 方案 都 不 令 人 满意 。 

作 这 个 分 析 的 最 简单 方法 使 用 类 似 于 过 程 间 常 数 传播 的 技术 ， 尽 可 能 地 前 向 传播 地 址 ， 
以 便 建立 给 定 例 程 中 指针 变量 可 以 访问 的 变量 集合 。 这 样 就 提供 了 在 最 坏 情况 下 可 能 访问 的 
变量 的 边界 ， 但 是 ， 这 通常 是 不 够 的 一 一 一 旦 一 个 指针 可 以 指向 多 个 变量 ， 那 么 由 此 导致 的 
依赖 通常 会 阻止 所 有 的 变换 。 人 们 进行 了 大 量 提 高 C 程 序 中 指针 分 析 精 确 性 的 研究 工作 [144， 
206，197，274，152]， 但 是 这 个 问题 仍然 没有 一 个 完全 满意 的 解决 方案 。 结 果 ， 使 用 制导 仍 
然 是 产品 编译 器 中 最 常用 的 方法 。 


12.2.2 命名 和 结构 

为 了 使 用 上 一 节 中 描述 的 框架 ， 每 个 通过 指针 变量 的 间接 访 间 必 辣 一 个 “名 字 ” 或 “ 桶 ” 
相关 联 ， 表 示 所 有 可 能 访问 的 存储 单元 。 在 Fortran 语 言 中 (或 者 至 少 在 所 有 不 包含 指针 语句 
的 Fortran 语 言 的 变 体 中 )， 一块 内 存 区 域 可 以 用 一 个 惟一 的 名 字 (数组 名 ) 所 标识 ， 这 就 提供 
了 个 容易 计算 依赖 的 基础 。 即 使 在 使 用 EQUIVALENCE 和 COMMON 语 名 时 ， 数 组 引用 也 可 以 被 静 
态 地 化 简 成 对 应 于 COMMON 块 或 等 价 的 变量 集 的 基地 址 的 一 个 偏 移 量 。 在 C 中 ， 这 样 的 化 简 并 非 
是 可 能 的 ， 这 就 使 建立 依赖 图 的 过 程 复杂 化 了 。 

考虑 在 C 中 将 一 个 名 字 与 通过 指针 引用 的 内 存 相关 联 的 问题 。 这 个 过 程 必须 保证 任何 可 能 
访问 同样 内 存单 元 的 一 对 引用 必须 用 同样 的 名 字 标注 ， 以 便 依赖 测试 过 程 可 以 比较 不 同 的 引 
用 。 考 虑 C 中 如 下 结构 的 内 存 引用 : 

p; 

*D; 

**p; 

'x(p+4); 

*(&p+4); 

在 第 一 种 情况 下 ， 通 过 指针 变量 p 引 用 的 内 存 位 置 很 清楚 ， 也 很 容易 命名 一 一 它 引 用 程序 
内 存 中 的 一 个 单元 ， 如 果 需 要 的 话 ， 我 们 可 以 精确 地 找 出 这 个 单元 。 

在 第 二 种 情况 下 ， 被 引用 的 内 存 位 置 不 清楚 ， 难 于 命名 。“*p” 实 际 上 是 程序 中 被 命名 的 
或 由 其 他 变量 生成 的 一 些 存 储 单元 的 别名 。 正 如 在 12.2.1 中 讨论 的 ， 确 定 这 个 例子 中 变量 p 会 
是 哪些 变量 的 别名 无 疑 是 个 必须 解决 的 问题 。 但 是 ， 接 下 来 的 一 个 问题 是 使 用 依赖 测试 算法 
进行 存储 测试 时 用 什么 名 字 ? 为 了 提高 效率 ， 那 些 算 法 的 基础 都 是 把 若干 引用 划分 到 若干 个 
桶 里 〈 这 些 桶 是 基于 变量 名 的 ) 一 一 假设 排除 别名 ， 某 个 桶 里 的 对 象 只 能 依赖 同一 桶 里 的 对 
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象 。“*p” 不 能 放 在 p 的 桶 里 ， 因 为 p 所 代表 的 存储 单元 和 通过 这 个 存储 单元 中 的 地 址 引用 的 存 
储 单元 显然 是 不 同 的 。 假 设 在 测试 点 无 法 惟一 地 确定 p 的 值 ， 因 为 如 果 是 那样 ， 我 们 就 可 以 直 
接 用 这 个 值 而 不 需要 再 用 指针 了 。 在 无 法 确定 惟一 值 的 前 提 下 ， 必 须 为 测试 “*p” 创 建 一 个 
新 名 字 ， 因 为 测试 的 过 程 是 由 符号 表 驱 动 的 ， 代 表 新 名 字 的 符号 必须 进入 到 符号 表 里 ， 这 样 ， 
通过 这 个 指针 的 所 有 引用 对 就 可 以 在 一 起 测试 。 

在 初次 实现 指针 的 依赖 测试 时 ， 这 个 需求 很 容易 被 忽视 ， 因 为 我 们 很 容易 假设 放 p 的 桶 也 
可 以 用 来 同时 放 *p 和 p。 同 样 的 想法 也 适用 于 第 三 个 例子 : **p 需 要 另 一 个 名 字 来 区 别 它 所 代 
表 存 储 单元 和 p、*p 所 代表 的 存储 单元 。 

值得 注意 的 是 ， 仅 仅 构造 新 的 名 字 还 不 够 ; 在 第 四 个 例子 中 ， 成 功 测试 的 关键 是 把 对 *p 
桶 的 引用 和 任何 其 他 引用 分 开 ; 这 个 引用 需要 对 *p 可 能 涉及 的 所 有 对 象 进行 测试 ， 而 不 需要 
测试 其 他 对 象 。 这 说 明 我 们 在 简化 带 * 操 作 符 的 表达 式 时 需要 一 些 智能 的 做 法 ， 才 能 把 它们 分 
到 合适 的 桶 里 。 

处 理 第 五 个 例子 需要 更 加 智能 的 做 法 : 它 应 正确 地 简化 为 

p[1]; 
并 且 应 当 对 p 桶 进行 测试 ， 而 不 测试 任何 其 他 对 象 。 

由 于 这 些 复杂 性 ，C 的 依赖 测试 框架 需要 比 Fortran 的 更 加 强大 。 其 中 一 个 功能 强大 的 表达 
式 简化 程序 是 十 分 关键 的 ， 它 可 以 很 好 地 理解 带 * 的 表达 式 的 含义 ， 把 表达 式 转换 成 定义 明确 
的 规范 形式 。 

C 中 的 另 一 个 复杂 性 来 源 是 结构 。 本 质 上 ， 结 构 的 每 个 成 员 组 成 一 个 小 小 的 数组 ， 而 且 联 
合 的 存在 还 允许 这 个 数组 中 有 别名 存在 。 这 就 又 引入 了 一 些 关 于 命名 的 问题 (“a.b” 的 名 字 
是 什么 ? ) 和 其 他 一 些 测试 中 的 问题 。 尤 其 是 联合 允许 不 同 大 小 的 对 象 的 存储 重合 ， 所 以 我 
们 就 需要 把 这 些 对 象 的 引用 减 小 成 可 能 的 最 小 公共 存储 单元 一 一 字 节 组 (bytes) 或 在 依赖 济 
试 支持 位 域 情况 下 的 位 组 (bits )。 如 果 一 个 结构 成 员 ， 通 过 联合 中 的 字 节 数 组 和 整数 数组 都 
能 访问 到 ， 那 么 ， 字 节 数 组 中 的 第 四 个 元 素 和 整数 数组 中 的 第 一 个 元 素 会 发 生 冲 突 ， 这 一 点 
是 简单 的 测试 系统 所 检测 不 到 的 。 处 理 这 个 问题 的 最 简单 的 方法 是 把 整数 引用 拆 分 为 四 个 单 
字 节 引用 ， 并 分 别 对 每 个 进行 测试 。 


12.2.3 .循环 

C 中 for- 循 环 的 使 用 限制 比 Fortran 中 的 00- 循 环 要 少 得 多 。 在 C 中 ， 可 以 有 跳 人 一 个 for 特 
环 体 的 跳 转 ; 如 果 存 在 归纳 变量 的 话 ， 归 纳 变量 可 以 在 循环 体 中 被 改变 ;循环 的 增 量 值 也 可 
以 在 循环 内 部 被 改变 ; 控制 循环 初始 化 、 增 量 和 结束 的 条 件 本 质 上 也 没有 任何 形式 上 的 限制 。 
换 名 话说， 如果 有 人 和 希望 在 看 到 任意 一 个 C 的 for- 循 环 时 ， 立 刻 就 能 找 出 循环 变量 的 起 始 值 、 
结束 值 和 固定 的 增 量 ， 那 么 他 会 失望 的 。 所 以 ， 尝 试 直接 向 量化 C 中 的 for- 循 环 ， 通 常 是 没有 
意义 的 。 由 于 这 样 的 原因 ， 在 中 间 语 言 中 支持 一 个 单独 的 for- 循 环 的 表示 是 不 值得 的 。 前 端 
可 以 轻易 地 把 输入 的 for- 循 环 转换 成 whi1e- 循 环 ， 而 且 因 为 无 论 哪 种 循环 都 需要 分 析 才 能 决 
定 它 是 否 能 作为 00- 循 环 ， 因 此 ， 单 一 的 whi1e- 循 环 的 形式 可 以 简化 分 析 和 变换 。 

一 个 whi1e- 循 环 必 须 符合 如 下 条 件 ， 才 能 被 改写 成 D0- 循 环 : 

(1) 必须 具有 一 个 明显 可 识别 的 归纳 变量 。 

(2) 在 进入 循环 的 所 有 路 径 上 这 个 归纳 变量 的 初 值 必 须 相同 。 

(3) 归纳 变量 在 循环 中 必须 有 且 仅 有 一 处 增 量 语句 。 
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(4) 归纳 变量 的 增 量 语句 必须 在 循环 的 每 个 迭代 都 执行 ， 而 不 应 存在 可 能 越过 增 量 语句 
的 路 径 。 

(5) while- 循 环 的 结束 条 件 必须 符合 D0- 循 环 的 要 求 。 

(6) 不 存在 可 以 从 whi1e- 循 环 体外 部 跳 到 循环 体内 部 的 跳 转 。 | 

显然 ， 决 定 一 个 循环 是 否 符合 以 上 条 件 并 不 是 可 以 通过 简单 的 模式 匹配 来 实现 的 ， 而 需 
要 综合 运用 控制 流 分 析 和 数据 流 分 析 。 第 2 和 第 4 条 既 需 要 数据 流 分 析 ， 以 识别 增 量 语句 的 位 
置 ， 也 需要 控制 流 分 析 以 保证 赋值 语句 控制 循环 头 的 执行 上 。 第 6 条 需要 简单 检查 控制 流 图 。 
其 他 条 件 需要 一 些 数 据 流 分 析 来 寻找 合适 的 赋值 语句 ， 同 时 也 需要 模式 匹配 来 保证 找到 的 赋 
值 语 名 满足 要 求 。 简 单 总 结 是 : 在 建立 程序 的 标量 数据 流 信息 之 前 ，for- 循 环 不 能 被 转换 成 
D0- 循 环 。 虽然 有 这 些 复杂 因素 ， 这 一 遍 转 换 可 以 被 相对 容易 地 插入 到 前 面 描述 的 优化 流 中 。 


12.2.4 作用 域 和 静态 变 

C 中 的 作用 域 规则 和 对 与 地 址 符号 结合 的 文件 静态 变量 的 支持 也 引入 必须 处 理 的 额外 别名 
问题 。 作 用 域 问题 通常 由 前 端 处 理 ， 前 端 会 为 具有 相同 名 字 但 出 现在 不 同 作用 域 的 变量 分 别 建 
立 惟一 的 符号 。 如 果 采 用 这 样 的 方案 ， 那 么 后 面 的 依赖 测试 框架 不 需要 任何 修改 就 能 正确 处 理 
这 些 变量 。 但 是 ,值得 注意 的 是 ， 用 户 经 常 错误 地 以 “ 先 使 用 后 定义 ”的 方式 使 用 这 些 变量 。 
在 这 种 情况 下 ， 编 译 器 会 把 它们 视 为 没有 定义 的 引用 ， 从 而 会 修改 它们 的 值 ， 于 是 感觉 上 是 编 
译 嚣 的 错误 ， 而 实际 上 是 用 户 的 问题 。 为 用 户 解释 这 些 问题 是 十 分 困难 的 ， 应 当 尽 量 避 免 。 

同 Fortran 中 的 变量 一 样 ， 静 态 变量 可 以 被 过 程 调用 修改 。 但 是 ， 规 则 更 为 复杂 ， 因 为 这 
些 变 量 只 能 被 可 以 看 到 它们 的 声明 的 过 程 所 修改 。 编 译 器 通常 可 以 简单 地 根据 作用 域 信息 来 
确定 静态 变量 是 否 可 以 修改 ， 而 这 些 信息 应 当 在 C 的 符号 表 里 提 供 。 

与 地 址 操作 符 结 合 使 用 的 静态 变量 会 造成 一 些 容易 经 常 被 编译 器 忽视 的 细微 差别 。 当 一 
个 变量 的 地 址 被 作为 参数 传递 给 一 个 过 程 调 用 时 ， 这 个 过 程 可 能 在 一 个 静态 变量 或 外 部 变量 
中 存 人 这 个 地 址 (在 图 像 处 理 和 视窗 系统 中 很 容易 发 生 这 种 情况 )。 一 旦 这 种 情况 发 生 ， 许 多 
过 程 都 可 以 借助 静态 变量 的 间接 访问 而 修改 原 变 量 。 这 种 情况 很 容易 被 优化 器 所 忽视 。 


12.2.5 方言 

在 优化 C 语 言 程序 的 过 程 中 ， 一 个 非常 困难 的 问题 是 处 理 C 的 近 20 年 的 开发 过 程 中 形成 的 
习惯 用 法 的 方言 。 使 用 C， 也 可 以 写 出 看 起 来 很 像 Fortran 程 序 的 循环 和 数组 引用 ， 并 且 即 使 C 
中 人 允许 更 大 范围 地 使 用 别名 ， 这 些 引用 也 很 容易 被 优化 和 向 量化 。 但 是 ， 历 史上 对 C 的 使 用 ， 
没有 人 以 这 样 的 风格 书写 C 代 码 。 更 常见 的 是 用 指针 、 副 作用 操作 符 和 简约 的 代码 ， 正 如 在 
12.2 节 开始 给 出 的 例子 一 样 。 优 化 C 代 码 时 一 个 主要 的 需求 是 把 规则 的 、 预 期 可 以 用 Fortran 改 
写 的 计算 从 杂乱 的 、 质 量 低劣 的 限制 优化 潜力 的 应 用 中 分 离 出 来 。 

C 的 习惯 用 法 引入 的 主要 困难 来 自 以 下 三 种 风格 上 的 约定 : 

(1) 更 愿意 使 用 指针 而 不 是 数组 : 历史 上 ，C 程 序 员 就 减少 了 使 用 数据 引用 的 强度 ， 他 们 
更 乐于 通过 指针 来 遍历 数组 ， 而 不 是 通过 规则 的 下 标 形 式 的 引用 。 

(2) 使 用 副作用 操作 符 : 副作用 操作 符 可 以 减少 示人 上 的 工作 量 ， 而 且 在 发 明 C 的 时 候 ， 
这 些 操作 符 可 以 直接 映射 到 普遍 使 用 的 机 器 的 指令 上 。 这 些 操作 符 能 在 表达 式 中 间 引 入 变量 
值 的 变化 ， 使 优化 器 的 工作 复杂 化 ; 此 外 ， 这 些 操作 符 还 经 常 被 用 来 把 数组 引用 强度 削减 为 
指针 。 
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(3) 使 用 地 址 操作 符 和 间接 引用 操作 符 : 从 上 两 类 约定 自然 就 会 使 用 这 两 种 操作 符 。 

在 这 三 种 结构 中 ， 副 作用 操作 符 最 需要 考虑 。 如 果 中 间 表 示人 允许 对 副作用 操作 符 施加 注 
释 ， 那 么 优化 器 的 工作 一 定 会 复杂 很 多 。 在 一 个 表达 式 被 前 向 替换 之 前 ， 必 须 检 查 它 的 副 作 
用 ; 在 两 个 语句 被 调换 位 置 之 前 ， 也 必须 检查 副作用 ; 等 等 。 注 意 ， 做 这 样 的 检查 是 非常 困 
难 的 ， 并 且 会 引入 令 人 讨厌 的 、 难 于 发 现 的 错误 。 如 果 中 间 表 示 不 支持 对 副作用 操作 符 施 加 
这 类 注释 ， 而 是 把 副作用 操作 分 解 为 几 个 原子 操作 ， 那 么 ， 我 们 将 会 得 到 更 简单 、 更 可 靠 的 
优化 器 。 

这 就 是 Titan C 编 译 器 所 采用 的 方案 [26]。 它 的 前 端 在 语法 分 析 中 消除 了 所 有 的 副作用 操作 
符 ， 把 诸如 
这 样 的 操作 转换 为 

t= X; 

x = ttl; 
引入 临时 变量 t 是 为 了 防止 出 现 由 易 变 变量 引发 的 问题 ( 见 12.2.6 节 )。 在 语法 分 析 器 之 后 ， 中 
间 表 示 中 除了 显 式 的 赋值 语句 外 ， 没 有 其 他 方式 可 以 改变 一 个 变量 的 值 。 

从 中 间 表 示 中 消除 副作用 操作 符 后 ， 就 可 以 用 规范 的 形式 来 规范 C 标 准 的 方言 ， 但 是 仍然 
需要 对 一 些 变换 做 一 些 改进 ， 包 括 : 

(1) 常数 传播 : 由 于 指针 引用 会 引入 模糊 性 ， 尽 可 能 地 删除 这 些 含糊 不 清 之 处 是 十 分 必 
要 的 。 所 以 ， 应 当 尽 可 能 把 地 址 操作 符 作 为 常数 ， 并 传播 它们 到 可 能 的 地 方 ， 把 一 个 间接 引 
用 中 的 通用 指针 替换 为 真实 的 地 址 大 大 增加 优化 的 机 会 。 

(2) 表达 式 化 和 莘 和 识别 : 如 12.2.2 节 中 提 到 的 ，C 程 序 中 的 方言 使 得 在 一 个 表达 式 中 识别 
哪个 变量 是 真正 的 “ 基 变 量 ”(base variable) 更 为 困难 。 

(3) 转换 成 数组 引用 : 本 项 作为 前 一 项 的 一 部 分 ,在 可 能 的 情况 下 ， 直 接 把 指针 引用 转 
换 成 数组 引用 是 非常 有 用 的 。 这 个 转换 不 仅 需 要 很 好 的 识别 手段 ， 而 且 需 要 更 强 的 归纳 变量 
替换 手段 。 

(4) BAREK: 在 C 的 自然 方言 中 ， 数 组 引用 在 进入 优化 器 之 前 ， 已 经 通过 强度 削减 
转换 成 指针 的 间接 引用 一 一 这 样 做 已 经 被 证 明 是 妨碍 依赖 分 析 的 。 归 纳 变 量 替换 必须 被 改进 ， 
以 求 对 这 些 变量 不 进行 强度 削减 。 请 注意 ,扩展 副作用 操作 符 时 也 需要 改变 归纳 变量 替换 ， 
因为 必须 识别 这 些 不 符合 传统 辅助 归纳 变量 条 件 的 形式 并 且 删 除 掉 。 

这 些 改进 都 是 很 简单 的 ， 但 是 其 中 归纳 变量 删除 需要 在 跟踪 并 且 增 量 式 更 新 副作用 变量 的 
使 用 -定义 信息 的 方法 上 做 一 些 重 要 的 改进 。 因 为 C 中 的 副作用 操作 符 会 造成 一 些 归纳 变量 只 
有 在 一 些 其 他 归纳 变量 被 删除 之 后 才 被 “发 现 ”"， 所 以 在 这 种 情况 下 我 们 需要 一 个 回溯 算法 。 


12.2.6 其 他 问题 

除了 一 些 普遍 性 问题 外 ，C 中 还 存在 一 些 由 于 历史 原因 和 以 往 的 惯用 法 引入 的 问题 。 而 且 ， 
在 存在 这 些 问题 的 多 数 情况 下 ， 几 乎 不 可 能 进行 什么 优化 。 

volatile ( 易 变 ) ' 

volatile ( 易 变 ) 变量 的 概念 是 C 语 言 从 操作 系统 中 继承 的 结构 之 一 。C 程 序 中 被 声明 为 
“volatile” 的 变量 是 不 能 被 优化 的 ; 程序 员 已 经 声明 了 这 个 变量 是 特殊 的 变量 ， 如 本 章 前 面 提 
到 的 键盘 接口 ， 所 以 编译 器 不 能 通过 任何 途径 优化 对 这 个 变量 的 使 用 。 虽 然 这 样 的 变量 在 先 
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进 的 优化 系统 中 是 可 以 被 单独 处 理 的 ， 不 过 或 许 不 值得 这 样 做 。 优 化 整个 国 数 而 不 影响 单个 
的 volatile 变 量 的 过 程 是 非常 容易 出 错 的 (例如 ， 由 于 两 个 volatile 变 量 的 引用 顺序 必须 保持 不 
w, 这样 在 代码 重 排 或 调度 时 就 很 容易 出 现 问 题 )， 而 且 ， 使 用 volatile 变 量 的 代码 通常 既 不 适 
合 被 优化 ， 也 不 是 理想 的 优化 的 目标 。 根 据 我 们 以 前 的 经 验 ， 一 个 很 突出 的 例子 就 是 用 于 初 
始 化 机 器 的 向 量 单元 的 代码 。 这 些 代 码 中 有 很 多 循环 ， 优 化 器 可 以 将 它们 很 好 地 向 量化 。 但 
是 ， 由 于 代码 的 功能 是 初始 化 向 量 单元 ， 使 用 向 量 单元 来 实现 这 段 代 码 是 不 可 取 的 。 大 多 数 


”使 用 volatile 变 量 的 代码 都 属于 这 类 应 用 ， 因 此 更 好 的 做 法 是 让 优化 器 直接 跳 过 这 些 函 数 。 


setjump 和 和 longjump 

setjump 和 1ongjump 是 两 个 特殊 的 C 库 图 数 调用 ， 遂 常 由 编译 器 直接 实现 ， 它 们 最 初 是 被 
设计 用 来 方便 错误 处 理 的 。 当 调用 setjump 时 ， 当 前 的 上 下 文 被 存在 一 个 缓冲 区 内 。 于 是 ， 
1ongjump 会 被 在 调用 链 的 更 深 的 层次 上 调用 ; 当 用 某 种 上 下 文 调用 1ongjump 时 ， 调 用 链 上 其 
他 的 调用 将 被 跳 过 ， 动 作 结 果 好 像 对 应 的 setjmp 刚 刚 返回 一 样 (这 里 要 使 用 一 个 特殊 的 返回 
代码 表示 是 1ongjump 的 返回 而 不 是 setjump 的 返回 )。 当 错误 的 条 件 发 生 在 调用 链 的 深 处 时 , 
可 以 用 setjump-1ongjump 对 避免 必须 检查 调用 链 上 每 个 过 程 的 返回 代码 。 

setjump 和 1ongjump 不 仅 会 造成 特殊 的 控制 流 ， 而 且 需 要 在 setjump 处 保留 计算 的 状态 ， 
而 在 执行 1ongjump 时 恢复 。 当 代码 被 优化 且 变 量 被 保存 在 寄存 器 时 ， 保 存 和 恢复 当时 的 计算 
状态 是 十 分 困难 的 。 当 代码 没有 被 优化 且 变 量 被 简单 地 保存 在 内 存 时 ， 这 个 工作 相对 简单 一 
些 。 所 以 ， 不 优化 包含 setjump 调 用 的 例 程 是 合理 的 、 简 单 的 和 有 效 的 做 法 。 

varargs 和 stdargs 

使 用 C 和 C++ 的 一 个 唾 手 可 得 的 便利 是 可 以 声明 类 似 于 “printf” 这 样 的 参数 数目 可 变 的 
函数 ， 这 些 函 数 的 参数 数目 依赖 于 调用 点 的 环境 。 使 用 这 个 用 法 的 接口 是 包含 在 头 文件 
“varargs.h”( 旧 版 本 ) 或 “stdargs.h”( 较 新 的 可 移植 性 更 好 的 版 本 ) 中 的 一 组 宏 。 在 任 
何 一 个 版 本 中 ， 这 些 宏 都 会 被 扩展 为 一 些 制导 ， 这 些 制 导 会 告诉 编译 器 把 所 有 的 寄存 器 参数 
保存 到 栈 中 事先 设 定 的 位 置 ， 并 且 使 用 一 个 指针 变量 通过 栈 来 访问 可 变 的 参数 表 。 很 明显 ， 
这 个 指针 变量 是 程序 中 若干 不 同 参数 的 别名 ， 这 对 于 优化 来 说 是 很 难处 理 的 。 因 此 ， 编 译 器 
不 优化 包含 可 变 参 数 制导 的 程序 是 通用 的 一 个 较 好 的 策略 。 

不 幸 的 是 ， 这 个 问题 到 这 里 并 没有 完 。 在 C 语 言 的 早期 使 用 过 程 中 ， 流 行 的 机 器 体系 结构 
中 倾向 使 用 可 预测 的 栈 结构 ， 传 递 参 数 时 只 用 到 栈 而 不 用 寄存 器 。 基 于 这 种 可 预测 性 ， 程 序 员 
经 常 建立 自己 的 可 变 参 数 表 ， 他 们 取出 一 个 传人 参数 的 地 址 ， 并 用 这 个 地 址 访问 其 他 参数 一 一 
这 本 质 上 是 一 个 自 定义 的 varargs。 如 同 正规 的 varargs 一 样 ， 这 样 的 用 法 造成 的 别名 使 优化 
无 法 进行 ， 而 通常 最 有 效 的 方法 是 关 掉 这 种 过 程 的 优化 。 如 果 向 后 兼容 性 十 分 重要 ， 编 译 器 还 
应 当 在 这 个 过 程 的 开始 (prolog) 中 把 所 有 寄存 器 参数 保存 到 栈 中 。 

需要 指出 的 是 ， 即 使 varargs 过 程 使 用 栈 布局 的 知识 ， 在 构造 依赖 图 时 正确 地 处 理 指针 还 
是 能 够 正确 地 优化 varargs 国 数 的 。 但 是 ， 结 果 依 赖 图 很 可 能 会 十 分 庞大 和 复杂 ， 并 且 限 制 大 
多 数 优化 的 应 用 ， 即 使 在 最 好 的 情况 下 ， 这 样 的 函数 也 只 能 做 少量 的 优化 。 所 以 ， 对 于 优化 
器 来 说 ， 好 的 选择 是 忽略 这 些 过 程 ， 而 把 时 间 和 精力 集中 在 通过 较 少 的 努力 就 获得 更 好 优化 
效果 的 过 程 上 。 


12.3 硬件 设计 
随 着 硬件 设计 中 许多 设计 规程 的 自动 化 ， 硬 件 设计 在 过 去 的 20 年 中 有 了 根本 性 的 发 展 。 
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在 20 世 纪 80 年 代 早期 ， 硬 件 设计 的 典型 做 法 是 在 门 级 或 晶体 管 级 上 进行 ， 由 设计 者 用 图 形 单 
元 的 形式 显 式 地 设计 出 门 和 连接 这 些 门 的 线路 。 而 今天 ， 大 多 数 硬 件 设 计 都 是 基于 语言 的 。 
设计 者 使 用 类 似 于 软件 开发 语言 的 语言 通过 文本 的 形式 来 描述 硬件 。 描 述 的 抽象 级 别 可 以 在 
很 大 的 范围 内 变化 : 在 最 低 的 级 别 ， 设 计 者 仍然 需要 描述 门 以 及 门 之 间 的 连接 (通常 是 通过 
一 个 网 表格 式 列 出 所 有 的 连接 )， 而 在 最 高 的 级 别 ， 设 计 者 仅仅 指出 加 法 、 乘 法 这 样 的 操作 ， 
然后 依赖 工具 将 它们 替换 为 合适 的 门 电路 。 对 于 某 种 给 定 的 设计 ， 合 适 的 抽象 级 别 依赖 于 很 
多 因素 ， 包 括 对 时 间 、 面 积 和 功 耗 的 萌 刻 限制 ， 设 计 者 的 设施 等 级 ， 投 入 市 场 的 时 间 上 的 考 
处， 以 及 用 来 制作 设计 的 工艺 过 程 ， 等 等 。 但 是 ， 如 果 不 考虑 其 他 因素 ， 设 计 的 抽象 级 别 总 
体 上 讲 还 是 从 细节 实现 向 行为 技术 规程 的 方向 发 展 。 使 这 种 趋势 成 为 可 能 并 且 能 持续 下 去 的 
一 个 关键 因素 是 编译 技术 能 够 支持 高 层 技术 规程 的 有 效 实现 。 

硬件 设计 一 般 可 分 为 四 级 设计 抽象 : (1) 电路 级 (现在 通常 称 为 物理 级 )，(2) ZHR, 
(3) 寄存 器 转换 级 (RTL), (4) 系统 级 [116]。 在 电路 级 ， 通 常用 示意 图 的 形式 来 表达 设计 意 
图 ， 示 意图 由 晶体 管 、 电 容 和 电阻 构成 。 物 理 上 的 布局 信息 在 这 个 级 别 上 也 是 很 重要 的 。 

在 逻辑 级 ， 设 计 是 用 布尔 等 式 的 形式 来 表达 的 ; 实现 层次 上 是 门 和 触发 器 。 虽 然 逻辑 级 
的 设计 是 用 门 的 形式 给 出 的 ， 在 硅 片 上 实现 的 门 和 设计 时 指定 的 门 经 党 有 所 不 同 。 造 成 这 些 
不 同 的 原因 是 : 对 于 不 同 的 技术 ,技术 库 不 能 实现 一 个 公共 的 功能 集合 。 这 样 ， 如 果 一 个 设 
计 中 指定 一 个 AND 门 ， 但 是 所 使 用 的 技术 库 不 提供 AND 门 ， 那 么 ， 这 个 门 就 必须 被 转换 成 一 
个 NAND 门 和 一 个 NOT 门 (或 者 其 他 等 价 的 门 的 集合 )。 技 术 映 射 就 是 实现 这 样 转换 的 过 程 ， 
且 技 术 映 射 器 也 会 为 了 时 间 、 面 积 和 功 耗 优化 所 得 到 的 门 。 

RTL 设 计 是 依据 算术 部 件 、 多 路 复 用 器 (MUX). AEBS 和 存储 器 指定 控制 状态 的 转换 
和 寄存 器 之 间 的 数据 传输 。 这 些 设计 通常 是 指定 一 个 控制 一 系列 功能 单元 的 执行 的 状态 机 ， 
在 不 同 周 期 之 间 保 存 值 的 若干 寄存 器 ， 以 及 以 时 钟 周期 形式 表示 的 每 个 状态 的 时 序 。 综 合 是 
将 一 个 RTL 设 计 转 换 成 等 价 的 门 和 触发 器 的 功能 集合 并 用 指定 技术 优化 那些 门 的 过 程 。 

最 后 ， 在 系统 级 ， 设 计 更 多 的 是 定义 行为 而 不 是 定义 实现 。 其 中 使 用 变量 ,但 是 这 些 变 
量 不 被 绑 定 到 寄存 器 或 存储 器 ; 只 对 变量 赋值 执行 顺序 的 等 级 指定 时 序 。 系 统 级 设计 通过 行 
为 综合 被 转换 成 可 实现 的 设计 。 行 为 综合 为 实现 设计 而 选择 资源 (算术 部 件 一 一 半 加 器 、 行 
波 进位 加 法 器 、 进 位 存储 加 法 器 等 )， 把 操作 调度 到 资源 当中 ， 并 给 行为 指定 时 序 。 

从 上 面 的 讨论 中 ， 我 们 可 能 已 经 比较 清楚 了 : 行为 综合 实际 上 是 一 个 编译 问题 ， 而 综合 
-也 接近 于 编译 问题 。 编 译 器 把 一 个 问题 描述 从 人 的 层次 上 的 表示 向 下 转换 成 一 种 在 指定 体系 
结构 上 能 执行 的 表示 。 对 于 编译 器 来 说 ， 可 用 的 资源 有 给 定 体系 结构 的 处 理 器 、 寄 存 器 和 存 
储 器 ; 编译 器 使 用 机 器 的 指令 集 把 那些 操作 调度 到 上 述 资 源 中 。 除 了 没有 事先 给 定 一 个 目标 
体系 结构 和 一 组 资源 外 ,行为 综合 进行 几乎 同样 的 过 程 ; 它 必须 选择 资源 ， 并 且 要 在 额外 的 
资源 所 需 的 空间 、 功 耗 和 节省 时 间 之 间 做 出 平衡 。 一 旦 资源 被 选 定 ， 两 个 领域 内 的 分 配 和 调 
度 问题 都 是 相似 的 。 

不 考虑 设计 的 抽象 级 别 ， 硬 件 开发 总 是 涉及 到 两 个 基本 的 任务 : 验证 和 实现 ， 或 更 加 普 
遍 的 叫 法 是 模拟 和 综 会 。 验 证 是 保证 硬件 行为 描述 确实 是 在 做 (设计 者 ) 希望 它 做 的 事情 的 
过 程 。 验 证 通常 是 通过 在 通用 计算 机 上 对 硬件 描述 进行 软件 模拟 来 实现 的 。 实 现 是 自动 把 硬 


”本 节 中 用 到 的 术语 “寄存 器 ”不 是 指 处 理 器 中 能 快速 访问 的 寄存 器 ， 而 是 指 能 在 一 个 时 钟 周期 内 保存 一 个 
值 的 存储 单元 ， 它 和 用 于 仅 当 被 驱动 时 传递 一 个 值 的 线 是 不 同 的 。 
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件 描述 转换 成 可 以 掩 模 到 硅 片 上 的 形式 的 过 程 。 由 于 RTL 是 当今 最 常用 的 抽象 层次 ， 所 以 实 
现 通 常 包 含 综合 的 过 程 。 

事实 上 ， 模 拟 器 和 综合 器 〈 尤 其 是 高 层 综合 器 ) 的 核心 基本 上 就 是 编译 器 。 在 两 种 情况 
下 ， 优 化 都 是 这 个 过 程 的 关键 成 分 。 由 于 模拟 器 包括 执行 一 台 计 算 机 上 一 个 硬件 设备 的 软件 
来 描述 ， 所 以 它 必 定 会 比 这 个 硬件 设备 本 身 慢 (在 数量 级 上 )。 和 软件 不 同 ,硬件 一 旦 制造 出 
来 ， 就 不 可 能 再 变更 ; 所 以 ， 我 们 不 可 能 做 到 充分 的 模拟 。 同 样 ， 周 期 时 间 、 面 积 、 功 耗 等 
都 是 硬件 设备 的 关键 特性 ， 并 且 ， 任 何在 实现 上 减少 时 间 、 面 积 或 功 耗 的 变换 都 会 增加 所 得 
设备 的 价值 。 所 以 ， 优 化 就 成 为 支持 硬件 设计 的 工具 中 必 不 可 少 的 功能 。 

本 节余 下 部 分 描述 一 些 应 用 于 硬件 模拟 和 综合 的 依赖 分 析 和 高 级 优化 技术 。 在 描述 任何 
特定 的 优化 之 前 ， 我 们 将 简单 地 展示 一 下 硬件 描述 语言 ， 为 下 面 介绍 优化 提供 必 备 的 基础 。 
其 后 ， 我 们 介绍 模拟 变换 的 基本 思想 以 及 用 于 高 层 综合 的 变换 。 


12.3.1 硬件 描述 语言 

现今 使 用 的 硬件 设计 语言 (HDL) 主要 有 两 种 : Verilog[265] 和 VHDL[155]。Verilog 在 20 
世纪 80 年 代 初 首先 投入 使 用 ， 并 且 ， 粗略 地 说 ， 它 可 以 被 看 作 是 C 语 言 的 扩展 ， 在 其 中 增加 了 
描述 硬件 所 必需 的 原 语 。 虽 然 它 最 初 被 一 家 公司 开发 并 推 向 市 场 ，IEEE 在 1994 年 为 这 个 语言 
制定 了 一 个 标准 ， 这 个 标准 现在 得 到 多 家 厂商 的 支持 。 另 一 方面 ，VHDL 和 Ada 非 常 类 似 ， 可 
以 看 作 是 对 Ada 语 言 的 扩展 ， 在 其 中 增加 描述 硬件 的 原 语 。 同 Ada 一 样 ，VDHL 由 (专门 的 ) 
委员 会 开发 ， 并 且 从 1984 年 它 的 推出 之 初 至 今 得 到 了 若干 厂商 的 支持 。 

由 于 Verilog 类 似 于 C， 所 以 ， 我 们 本 节 后 面 的 例子 将 用 Verilog 来 书写 。 在 两 种 语言 中 ， 用 
于 硬件 描述 的 原 语 和 扩展 提供 相同 的 基本 功能 。 在 Verilog 中 ,包括 如 下 扩展 : 

(1) 多 值 远 辑 : 和 C 语 言 中 每 一 位 (bit) 只 能 有 0 或 1 两 个 二 进 制 值 不 同 ，Verilog 中 每 一 
位 可 以 有 四 个 值 : 0，1，x 和 z。 扩 充 的 两 个 值 是 用 来 表示 未 知 的 或 冲突 的 硬件 状态 : “x” K 
示 一 个 值 正 处 于 未 知 的 状态 (或 者 是 0， 或 者 是 1)， 而 “z” 通 常 表示 在 驱动 总 线 时 的 一 个 冲 
R. 例如， 在 Verilog 中 被 0 除 的 结果 用 x 表示 。 所 有 高 层 数 据 类 型 (例如 Verilog 中 的 “integer”， 
它 和 C 中 的 “int” 相 对 应 ) 都 是 这 样 的 多 值 位 ( 称 为 “标量 ") 组 成 的 向 量 。 这 样 ， 模 拟 时 就 
不 总 是 能 够 把 算术 操作 直接 映射 到 现 有 的 机 器 指令 上 。 例 如 ， 在 Verilog 中 ， 两 个 整数 相 加 ， 
如 果 输 入 中 有 x， 将 使 得 结果 也 为 x， 所 以 就 不 能 直接 用 简单 的 加 法 来 执行 这 样 的 操作 。 

(2) 反应 性 : 硬件 的 一 个 特点 是 一 个 信号 值 的 改变 会 自动 地 传播 到 与 它 连接 的 设备 上 ， 
这 与 数据 流 系 统 的 特点 类 似 。 这 和 依赖 于 严格 的 过 程 执行 模型 的 C 语 言 完全 不 同 。 在 Verilog 中 ， 
反应 性 行为 基本 上 是 用 “always” 语 句 和 “@” 操 作 符 合 起 来 描述 的 。always 语 名 本质 上 是 一 
个 无 限 循 环 一 一 它 导致 一 个 程序 块 的 持续 执行 。@ 操 作 符 将 会 阻塞 执行 ， 直 至 它 的 一 个 操作 数 
的 值 发 生 指 定 变化 。 当 二 者 结合 起 来 ， 如 在 代码 


always @(b or c) 
a = b +c; 


中 ， 无 论 何 时 任何 一 个 输入 改变 ， 都 导致 (这 段 程序 ) 计算 出 一 个 新 的 结果 值 。 在 这 个 例子 
中 ，b 和 c 的 任何 变化 将 会 自动 引起 以 新 的 和 更 新 a 的 值 。 在 Verilog 中 还 有 其 他 的 方法 来 表示 这 
类 行为 ， 但 是 它们 都 能 被 规范 化 地 归 约 为 这 种 形式 。 

(3) 对 象 : 在 C 中 ， 函 数 是 抽象 行为 的 主要 机 制 之 一 ， 且 参数 是 把 信息 传 进 和 传 出 函数 的 
主要 方法 。 但 不 幸 的 是 ， 这 种 结构 还 不 足以 充分 地 描述 硬件 。 硬 件 中 重要 的 对 象 是 芯片 中 的 
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一 部 分 ; 由 于 它 是 硅 片 上 的 特定 区 域 ， 所 以 它 有 自己 的 寄存 器 和 状态 。 这 些 语义 都 和 函数 调 
用 的 语义 大 不 相同 : 函数 调用 代表 一 个 单独 的 代码 位 置 ， 可 能 为 不 同位 置 的 调用 保留 状态 。 
由 于 相同 的 硬件 对 象 的 每 个 实例 都 是 芯片 中 完全 分 离 的 区 域 ， 在 不 同 的 对 象 之 间 没 有 任何 状 
态 可 以 保留 (或 者 至 少 是 不 应 该 保留 ) ， 每 个 对 象 在 调用 之 间 都 保留 自己 的 状态 。 由 于 这 个 差 
别 ，Verilog 中 数据 封装 的 主要 对 象 是 模块 ， 它 和 C++ 中 的 类 在 很 多 方面 都 很 类 似 。 

(4) 连通 性 : 除 需要 用 模块 表示 芯片 上 不 同 的 实例 之 外 ， 硬 件 还 需要 实现 对 象 之 间 的 连 
通 。C 语 言 中 函数 的 参数 是 将 信息 简单 地 传 进 和 传 出 函数 的 瞬时 机 制 ， 而 硬件 模块 之 间 有 物理 
的 线 连 接 ， 这 些 线 可 以 持续 地 传人 和 传 出 信息 。Verilog 用 模块 的 端口 来 支持 这 些 功 能 : 一 个 
输入 说 口 持续 地 从 一 个 外 部 来 源 传 信 信息， 而 一 个 输出 端口 持续 地 向 一 个 外 部 目标 传 出 信息 。 
这 样 ， 如 果 我 们 要 将 前 面 提 到 的 加 法 器 封装 在 一 个 模块 中 ， 我 们 应 当做 如 下 声明 

module add(a, b, c) 

output a; 

input b, c; 

integer a, b, c; 

always @(b or c) 
a=b+tc; 

endmodule 
这 个 模块 声明 一 个 完成 32 位 加 法 的 对 象 (在 Verilog 中 ， 整 数 总 是 32 位 宽 )。 与 输入 端口 相连 接 
的 任何 变量 的 修改 都 会 自动 地 以 新 的 和 来 更 新 与 输出 端口 相连 接 的 变量 。 

(5) 实例 化 : 声明 对 象 是 很 少 采 用 的 ， 除 非 作 为 创建 对 象 实例 的 一 种 方式 。 在 Verilog 中 
( 同 C++ 中 一 样 )， 对 象 的 新 的 实例 由 实例 化 过 程 产生 。 和 C++ 不 同 ，Verilog 只 人 允许 静态 的 模块 
实例 而 不 允许 动态 的 模块 实例 。 模 块 的 实例 化 是 通过 声明 一 个 新 实例 实现 的 : 

integer x, yY, Z; 

add aderi (s. y, Z); 

这 个 声明 生成 一 个 名 为 adder1 的 新 加 法 器 。 变 量 x，y，z 和 模块 add 中 端口 a，b，c 相 连 ， 所 
以 ， 每 当 y 和 z 的 值 有 变化 时 ，x 都 被 隐 式 地 更 新 为 二 者 的 新 的 和 。 模 块 add 的 每 个 实例 都 和 硅 
片上 不 同 的 位 置 相 对 应 ， 所 以 模块 的 内 部 变量 (在 Verilog 中 总 是 被 声明 为 静态 变量 而 不 是 自 
动 变量 ) 对 于 每 个 实例 都 是 惟一 的 。 因 此 模块 的 每 个 实例 在 变化 之 间 都 保留 内 部 状态 ， 但 是 
模块 的 声明 不 保留 任何 状态 。 

(6) 向 量 操作 : 由 于 Verilog 是 面向 标量 的 ， 且 把 别 的 数据 结构 视 为 标量 组 成 的 向 量 或 聚 
集 类 型 ， 所 以 ，Verilog 支 持 简单 的 向 量 操作 是 很 自然 的 。 用 位 选择 操作 符 (如 A[1]) 可 以 截 
取出 单个 的 位 ; 部 分 选择 操作 符 〈 如 A[3:4] 一 一 除 1 外 不 允许 其 他 长 度 的 跨 距 ) 可 以 截取 出 向 
E; 向 量 可 以 连接 在 一 起 ({A[0]，A[1:15]} 的 结果 是 A 的 最 左边 的 16 位 } )。 

Verilog 中 还 包含 一 些 其 他 的 原 语 和 扩展 ， 用 以 描述 操作 的 定时 和 生成 模块 的 上 下 文 ， 但 
是 上 面 描述 的 特征 对 于 本 章 的 讨论 来 说 已 经 足够 了 。Verilog 包 括 对 所 有 级 别 的 语言 支持 ， 从 
最 低 的 电路 级 到 最 高 的 系统 级 。 但 是 ， 它 实际 上 通常 用 在 门 级 和 RTL 级 上 。 电 路 级 对 于 大 多 
数 设计 者 来 说 需要 太 多 细节 ， 而 对 于 较 低 层次 的 支持 会 影响 到 Verilog 对 于 系统 级 的 支持 。 例 
如 ， 所 有 变量 都 有 四 种 状态 会 使 得 系统 级 的 模拟 变 慢 ， 其 中 未 知 的 值 通常 是 不 重要 的 。 

从 优化 的 观点 来 说 ，Verilog 具 有 若干 理想 的 特性 。 首 先 ， 其 中 本 质 上 不 存在 别名 。 因 为 
如 果 编 译 器 要 生成 硬件 并 把 它 连接 起 来 ， 那 么 编译 器 必须 能 够 指明 线 的 走向 ， 所 以 语言 定义 
无 法 使 一 个 值 有 别名 (除了 一 个 相当 明确 的 结构 之 外 )。 第 二 ， 在 设计 中 ， 向 量 是 被 广泛 使 用 
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的 ， 且 语言 限制 了 下 标的 形式 ， 使 得 分 析 这 些 下 标 非 常 容易 。 最 后 ， 由 于 历史 的 原因 ， 
Verilog 需 要 将 整个 硬件 设计 一 次 性 地 提交 给 编译 器 ; 不 支持 分 别 编译 。 所 以 ， 在 Verilog 的 编 
译 器 中 ， 有 效 的 过 程 间 分 析 是 可 能 的 。 

但 是 ，Verilog (或 者 更 一 般 地 讲 是 硬件 设计 ) 也 给 优化 器 造成 了 一 些 困难 。 第 一 个 难题 
是 由 always 块 引入 的 非 过 程 的 持续 的 语义 并 且 引 入 了 上 时序。 控制 不 再 平滑 地 、 可 预测 地 从 一 
个 基本 块 流 向 另 一 个 基本 块 。 相 反 ， 一 个 变量 的 变化 将 激活 另 一 个 always 块 的 活动 ， 从 而 可 
能 依次 激活 另 一 些 a1ways 块 ， 等 等 。 另 一 个 不 同 之 处 是 没有 循环 。 虽 然 Verilog 在 提供 向 量 的 
同时 也 提供 循环 结构 ， 但 是 ， 循 环 只 用 在 系统 级 上 。 在 较 低 的 级 别 上 ， 有 循环 结构 执行 ， 但 
是 循环 是 通过 always 块 和 调度 器 而 隐 式 表达 的 ， 而 不 是 显 式 地 表示 在 源 级 上 。 所 以 ， 在 
Verilog 中 识别 可 重复 执行 的 计算 比 在 过 程 化 语言 困难 得 多 。 最 后 是 大 小 问题 。 硬 件 设计 十 分 
庞大 ， 而 且 要 求 必 须 把 整个 硬件 设计 一 次 性 提交 给 编译 器 ， 这 样 做 有 优点 也 有 缺点 。 编 译 时 
间 和 存储 空间 的 利用 就 成 为 这 个 领域 内 编译 器 和 优化 器 考虑 的 关键 因素 。 即 使 是 对 存储 空间 
利用 和 编译 时 间 非 常 注意 的 综合 器 ， 也 需要 用 几 天 时 间 和 几 千 兆 字 池 空间 来 编译 一 个 中 等 规 
模 的 硬件 设计 。 在 这 些 问 题 上 有 任何 疏漏 的 综合 器 都 是 不 能 用 的 。 

有 了 上 述 对 Verilog 和 硬件 设计 的 介绍 ， 随 后 儿 小 节 将 介绍 一 些 在 模拟 和 综合 中 要 面 对 的 
挑战 性 问题 ， 以 及 如 何 使 用 优化 技术 (例如 依赖 分 析 ) 来 解决 这 些 问题 。 


12.3.2 优化 模拟 
在 模拟 的 过 程 中 ， 编 译 器 的 目标 是 把 硬件 描述 映射 到 用 来 模拟 硬件 设计 的 处 理 器 的 指令 
集 上 ， 好 的 模拟 器 事实 上 也 就 是 这 样 。 从 这 个 层次 的 细节 描述 看 ， 这 个 问题 是 个 简单 的 编译 
问题 ， 而 只 模拟 这 个 层次 的 细节 并 不 是 一 个 困难 的 问题 。 但 是 ， 这 种 观点 不 仅 完 全 没有 看 到 
模拟 中 真正 的 问题 所 在 ， 而 且 会 导致 形 失 很 多 优化 机 会 。 为 了 说 明 这 一 点 ， 我 们 考虑 如 下 的 
行为 级 加 法 器 : 
module adder(a, b, c) 
input b[0:3], c[0:3]; 
output a[0:3]; 
always @(b or c) 
a=b+e; 
endmodule 
对 于 这 样 的 输入 ， 一 个 合理 的 编译 器 应 当 能 识别 出 : 只 要 不 牵涉 到 末 知 的 值 ， 这 样 的 加 
法 可 以 在 任何 包含 32 位 加 法 器 的 机 器 〈 当 今 所 有 机 器 实际 如 此 ) 上 作为 单个 指令 执行 一 一 虽 
然 结 果 中 的 28 位 最 终 不 被 使 用 ， 但 是 ， 实 现 这 种 加 法 的 最 快 执 行 方式 是 首先 进行 检查 ， 确 保 
没有 不 确定 的 值 ， 然 后 把 操作 映射 到 机 器 本 身 的 加 法 指令 。 因 为 一 旦 通过 复位 条 件 的 测试 ， 
硬件 设计 中 一 般 不 会 出 现 不 确定 的 值 ， 那 么 这 个 操作 将 一 直 在 稳定 的 计算 状态 下 作为 一 个 独 
立 的 加 法 执行 。 
但 是 ， 这 种 行为 模式 不 是 以 上 加 法 器 可 以 采取 的 惟一 形式 。 模 拟 器 还 很 可 能 把 加 法 器 表 
示 为 
module adder(a, b, c) 
input b[0:3], c[0:3]; 
output a[0:3); 
wire carry; 
add2 add_1(a[0:1], 0, b£0:1], c{0:1], carry); 





CR fo RR FP RH 429 





add2 add_r(a({2:3}, carry, b[2:3], c[2:3], 0); 
endmodule ‘ 
module add2(sum, c_out, opl, op2, c_in) 

output sum[0:1], c_out; 

input op1[0:1], op2[0:1], c_in; 

wire carry; 


add] add_r(sum({0], carry, op1[0], op2[0], c_in); 
addi add_l(sum[1], c_out, opl[1], op2[1], carry); 
endmodule 


module addi(sum, c_out, opl, op2, c_in) 
input opi, op2, c_in; 
output sum cout; 
always @(opl or op2 or c_in) begin 
sum = opl ^ op2 ^ c_in; 
c_out = (opl & op2) | (op2 & c_in) | (c_in & opl); 
end 
endmodule 


这 段 代码 实现 与 行为 级 加 法 器 完全 同样 的 功能 。 但 是 ， 如 果 把 这 段 代 码 直接 映射 到 典型 
的 指令 级 上 ， 那 么 会 使 这 段 代 码 的 模拟 要 比 第 一 个 例子 慢 得 多 。 原 因 在 于 涉及 到 的 细节 层次 
是 不 同 的 。 行 为 级 的 例子 可 以 直接 映射 到 单个 的 加 法 指令 ; 而 本 例 处 于 更 低 细节 层次 上 ， 显 
式 地 描述 加 法 指令 实现 的 所 有 细节 (这 些 细节 当然 是 硬件 所 需要 的 )。 简 单 的 模拟 将 只 会 以 不 
同 的 机 器 指令 执行 所 有 的 细节 ， 而 不 会 识别 整个 代码 段 是 否 能 用 一 条 机 器 指令 来 实现 。 

这 两 个 例子 说 明 优化 硬件 模拟 的 真 止 症结 所 在 。 除 了 要 细致 考虑 良好 调度 的 细节 和 在 可 
能 的 情况 下 用 二 值 逻 辑 代替 四 值 逻 辑 外 ， 模 拟 过 程 中 的 行为 级 代码 的 编译 更 像 是 一 个 标准 的 
编译 问题 ; 其 代码 的 层次 更 接近 目标 指令 集 的 层次 。 所 以 ， 行 为 级 设计 的 模拟 是 快速 的 一 一 
一 般 来 说 接近 被 编译 代码 的 速度 。 但 是 ， 更 低层 次 的 设计 由 于 插入 了 细节 ， 会 花费 更 多 的 模 
拟 时 间 ， 而 且 会 使 其 行为 级 的 功能 变 得 很 模糊 。 所 以 ， 这 样 的 模拟 就 很 慢 。 优 化 模拟 速度 的 
关键 是 识别 低层 设计 中 实际 的 功能 并 把 它 映 射 成 机 器 指令 集中 涉及 细节 较 少 的 功能 。 

换 一 种 说 法 ， 与 其 他 因素 相 比 ， 模 拟 速 度 和 所 模拟 的 设计 的 抽象 级 别 更 为 相关 一 一 抽象 级 
别 越 高 ， 模 拟 速度 就 越 快 。 由 于 在 使 用 合理 的 优化 技术 后 高 层 设计 更 易于 有 效 地 模拟 ， 所 以 
一 个 好 的 模拟 器 应 当 具 有 的 一 个 主要 的 优化 技术 就 是 从 低层 设计 中 重新 得 到 高 层 的 功能 性 描 
述 。 这 样 ， 我 们 就 能 在 所 有 的 抽象 级 别 上 得 到 好 的 模拟 性 能 。 各 个 抽象 级 别 的 模拟 性 能 很 重 
要 ， 因 为 即使 所 有 的 设计 者 都 使 用 高 层 抽象 ， 硬 件 工 程 师 ( 情 有 可 原 的 固执 已 见 者 ) 仍然 会 
经 常 模拟 综合 的 结果 以 确保 综合 工具 不 会 出 现 错误 。 而且， 硬件 的 特性 经 常会 对 设计 强加 一 
些 低 层 的 选择 。 例 如 ， 虽 然 一 组 门 组 合 起 来 可 以 构成 一 个 加 法 器 ， 但 是 硬件 最 终 要 被 实现 成 
为 单个 位 的 门 。 所 以 类 似 于 第 二 个 例子 中 的 硬件 描述 并 不 少见 ， 使 用 这 种 表达 形式 ， 更 易于 
用 新 技术 替换 其 中 的 底层 的 模块 。 

幸运 的 是 ， 前 面 几 章 介绍 的 技术 为 我 们 从 低层 设计 中 重新 导出 高 层 功能 提供 良好 的 基 
础 ， 也 提高 了 低层 或 高 层 设计 的 调度 性 能 。 下 面 的 几 小 节 将 介绍 如 何 运 用 这 些 技术 提高 模 
拟 性 能 。 


内 联 模块 
从 上 面 的 一 些 例子 中 显然 可 见 ， 模 拟 器 需要 的 一 个 基本 的 优化 是 扩展 模块 内 联 的 能 力 。 


a 
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624) ”必需 的 优化 信息 的 副作用 。 当 我 们 的 目标 是 重新 导出 一 个 被 分 割 成 若干 模块 的 操作 的 功能 时 ， 
这 一 点 尤为 明显 。 
幸运 的 是 ，HDL 中 有 两 个 特性 使 模块 的 内 联 成 为 一 个 相对 简单 的 过 程 : 
(1) 整个 设计 需要 一 次 性 地 提交 给 模拟 器 。 这 意味 着 所 有 模块 的 源 代码 总 是 能 够 找到 。 
(2) 不 允许 递归 (递归 硬件 是 有 点 令 人 生 睛 的 想法 )。 所 以 ， 在 实例 图 (相当 于 调用 图 的 
“模块 ) 上 总 可 以 加 进 一 个 拓扑 排序 ， 而 且 可 以 在 线性 时 间 内 完成 内 联 而 且 不 必 担 心 无 限 的 
递归 。 
决定 何 时 结束 内 联 需要 很 仔细 的 考虑 ， 因 为 在 功能 单元 的 级 别 上 内 联通 常 是 设 用 的 。 
我 们 重新 回 到 上 面 的 第 二 个 例子 ， 内 联 所 有 的 模块 之 后 的 结果 是 : 
modute adder(a, b, c) 
input b[0:3], c[0:3]; 
output a[0:3]; 
wire carry, temp, templ; 
always @(b[1] or c[1] or carry) begin 
a[1] = b[1] ^ c[1] ^ carry; 
temp = (b[1] & c[1]) | (c[1] & carry) | (carry & b[1]); 
end 
always @(b[0] or c[0] or temp) begin 
a[0] = bf0] ^ c[0] ^ temp; 
0 = (b[0] & c[0]) | (c[0] & temp) | (temp & b[0]); 
end 
always @(b[3] or c[3] or 0) begin 
a[3] = b[3] ^ c[3] ^ 0; 
templ = (b[3] & c[3]) | (c[3] & 0) | (0 & b[3]); 
end 
always @(b[2] or c[2] or templ) begin 
a[2] = b[2] ^ c[2] ^ templ; 
carry = (b[2] & c[2]) | (c[2] & temp1) | (templ & b[2]); 


end 
endmodule 
625 注意 上 面 的 一 个 结果 被 映射 成 常数 0， 这 是 硬件 设计 中 一 种 抛弃 一 个 结果 的 方法 。 
执行 顺序 


本 书 中 已 经 反复 说 明 ， 语 名 执行 顺序 对 语句 执行 的 效果 具有 巨大 影响 。 如 同 在 其 他 领域 
上 一 样 ， 这 个 命题 在 硬件 设计 也 是 正确 的 。 例 如 ， 考 虑 前 一 节 中 被 内 联 的 例子 ， 假 设 c 的 值 从 
0 变 为 1，b 的 二 进 制 值 为 1111。 显 然 ， 所 有 的 结果 位 都 会 连锁 地 从 1 变 为 0。 这 个 简单 加 法 器 的 
硬件 将 会 有 效 地 引起 这 样 的 变化 : c 的 改变 激活 第 三 个 al1waySs 块 。 第 三 个 always 块 的 执行 使 得 
temp1 的 值 从 0 变 为 1。 接 下 来 ， 这 个 变化 激活 第 四 个 块 ， 从 而 使 得 carry 的 值 从 0 变 到 1。 这 个 
过 程 继续 下 去 ， 然 后 被 激活 的 是 第 一 块 ， 最 后 是 第 二 块 。 在 真实 的 硬件 中 电流 的 触发 和 设想 
的 激活 模型 是 非常 相符 的 。 

结果 硬件 可 以 高 效 地 执行 ， 但 是 硬件 的 软件 模拟 执行 可 能 不 是 如 此 高 效 。 硬 件 的 效率 来 自 
于 每 个 独立 的 位 变化 的 触发 ， 只 要 有 连接 加 法 器 的 门 的 线路 ， 这 些 触 发 就 会 很 自然 地 发 生 。 但 
是 ， 软 件 就 无 法 总 是 很 方便 地 跟踪 单独 的 位 ， 因 为 这 样 做 需要 非常 多 的 内 存 。 相 反 ， 软 件 模拟 
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器 在 某 些 情况 下 不 得 不 把 每 一 个 “变化 ”位 和 -个 实体 结合 起 来 。 例 如 ， 在 上 面 的 例子 中 ， 模 
拟 器 用 一 位 来 表示 a 中 任何 的 变化 ， 而 不 是 用 4 个 单独 的 位 表示 a[0]，a[1]，a[2] 和 af[3] 的 变 
化 ， 这 样 做 忽略 了 具体 的 发 生 了 变化 的 位 。 这 种 情形 和 编译 器 数据 流 分 析 相 同 ， 数 据 流 分 析 中 
数组 不 会 “注销 ”， 数 组 中 任何 元 素 的 值 发 生变 化 都 意味 着 数组 所 有 元 素 发 生变 化 。 

在 不 可 能 有 单独 变化 位 的 情况 下 ， 热 行 次 序 就 成 为 影响 上 面 加 法 器 的 模拟 效率 的 主要 因 
素 。 在 只 对 数组 实体 而 不 是 对 它们 的 单个 元 素 有 变化 位 的 条 件 下 ， 考 虑 输入 变化 与 以 前 相同 
时 的 执行 过 程 。c 中 的 变化 (即使 是 只 有 一 位 发 生变 化 ) 将 引起 所 有 always 块 被 调度 。 假 设 它 
们 以 词法 顺序 执行 ， 第 一 个 和 第 二 个 always 块 将 执行 ， 但 输出 结果 没有 变化 。 当 第 三 个 块 执 
行 时 ， 它 将 使 得 a[3] 从 1 变 到 0， 并 且 进 位 位 temp1 被 置 为 1， 激 活 基于 它 的 变化 。 依 赖 于 
temp1 的 惟一 的 一 个 块 是 块 4， 它 已 被 起 始 变化 引起 的 执行 调度 。 于 是 ， 块 4 的 执行 使 [2] 和 
carry 发 生变 化 ， 这 样 又 重 激活 块 1。 块 1 再 通过 块 2 引起 carry 的 变化 ， 然 后 ， 结 果 就 会 稳定 下 
来 。 这 样 的 次 序 显然 不 如 下 层 硬件 有 效 ， 在 最 坏 的 情况 下 (尤其 是 当 carry 的 位 被 表示 为 一 个 
数组 而 不 是 单个 变量 的 情况 下 )， 基 开销 可 能 是 平方 级 的 。 

问题 的 解决 方法 很 明显 : 以 基于 单个 数组 元 素 的 依赖 图 的 拓扑 顺序 来 执行 各 块 。 当 这 些 
块 被 拓扑 重 排序 后 : 


module adder(a, b, c) 
input b[0:3], c[0:3]; 
output a[0:3]; 
wire carry, temp, templ; 
always @(b[3] or c[3] or 0) begin 
a[3] = b[3] ^ c[3] ^ 0; 
temp] = (b[3] & c[3]) | (c[3] & 0) | (0 & b[3]); 
end 
always @(b[2] or c[2] or templ) begin 
a[2] = b[2] ^ c[2] ^ templ; 
carry = (b[2] & c[2]) | (c[2] & tempi) | (templ & b[2]); 
end 
always @(b[1] or c[1] or carry) begin 
a[1] = b[1] * c[1] ^ carry; 
temp = (b[1] & c[1]) | (c[1] & carry) | (carry & b[1]) 
end 
always @(b[0] or c[0] or temp) begin 
a[0] = b[0] ^ c[0] ^ temp; 
0 = (b[0] & c[0]) | (c[0] & temp) | (temp & b[0]); 
end 
endmodule 


数据 的 变化 以 和 词法 执行 同样 的 方向 通过 各 块 。 结 果 是 模拟 过 程 像 有 单独 的 变化 位 一 样 高 效 ， 
但 没有 内 存 的 开销 。 

由 于 在 这 个 级 别 的 模拟 中 不 存在 显 式 的 循环 ， 而 且 也 没有 别名 ， 所 以 基于 索引 的 值 计算 
依赖 图 是 一 个 很 简单 的 任务 。 但 是 拓扑 排序 完全 不 是 直接 就 能 得 到 的 ， 因 为 依赖 图 中 可 能 有 
环 。 和 在 Fortran 的 调用 图 中 一 样 ， 这 些 环 只 能 是 静态 的 (动态 环 意 味 着 无 法 处 理 的 硬件 )。 所 
以 ,我 们 需要 一 个 类 似 于 并 行 codegen 算 法 (图 2-2) 的 过 程 来 给 各 块 排序 。 但 是 ， 这 个 过 程 
会 更 复杂 一 些 。 在 codegen 中 ， 循 环 携带 依赖 的 特性 保证 了 递归 调用 会 打破 所 有 的 环 。 对 于 硬 
件 没有 类 似 的 概念 。 所 以 ， 选 择 合适 的 边 来 打破 环 就 是 一 个 复杂 的 过 程 ， 是 算法 的 关键 成 分 。 
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动态 调度 和 静态 调度 

前 面 一 段 已 经 显示 出 调度 是 硬件 模拟 中 的 一 个 主要 问题 。 在 确定 性 软件 中 有 效 地 仿真 硬 
件 的 数据 流 执 行 ， 这 个 过 程 包含 有 难于 权衡 先后 的 困难 的 抉择 ， 其 中 最 困难 的 是 动态 调度 和 
静态 调度 之 间 的 抉择 。 

最 自然 的 模拟 硬件 的 数据 流 执行 的 办 法 就 是 动态 跟踪 值 的 变化 并 且 把 这 些 变化 沿 连 接 的 
线路 传递 给 受 影响 的 计算 单元 。 这 种 方法 称 为 动态 调度 。 如 果 采 用 这 种 模型 ， 那 么 每 当 模 拟 
器 给 一 个 对 象 计算 一 个 值 的 时 候 ， 必 须 把 这 个 新 值 和 以 前 的 值 进行 比较 。 如 果 这 个 对 象 的 值 
发 生 了 变化 ， 模 拟 器 将 会 调度 所 有 与 之 连接 的 部 件 以 使 它们 根据 新 的 值 进行 更 新 。 如 果 对 象 
的 值 没 有 变化 ， 模 拟 句 就 不 需要 做 什么 。 间 前 面 的 例子 一 样 明显 ， 这 样 的 方案 (只 求 在 “位 ” 
一 级 计算 变化 ) 的 优点 是 它 能 精确 地 模仿 硬件 的 执行 ， 并 且 只 计算 变化 了 的 值 。 缺 点 就 是 检 
查 有 无 变化 发 生 的 开销 很 大 。 这 个 开销 很 可 能 成 为 整个 计算 时 间 的 主要 开销 ， 当 检查 是 在 每 
一 位 都 要 进行 时 尤其 如 此 。 

另 一 种 可 以 避免 变化 检查 的 开销 的 方案 是 静态 调度 模拟 (静态 调度 )， 这 种 方案 是 建立 在 
上 一 段 引 入 的 拓扑 模型 的 基础 上 的 。 在 这 个 模型 之 下 ， 模 拟 器 不 需要 检查 对 象 的 值 是 否 发 生 
了 变化 ; 相反 ， 它 会 定 目 地 (或 者 用 更 常用 的 技术 词汇 说 是 健忘 地 ) 扫描 所 有 的 对 象 ， 并 且 
不 管 是 否 有 变化 传播 ， 都 会 计算 所 有 对 象 的 值 。 这 样 做 的 优点 是 避免 所 有 的 变化 检查 。 纯 静 
态 调 度 只 能 用 于 模拟 依赖 图 上 没有 环 的 设计 。 这 个 限制 致使 一 些 设计 无 法 考虑 (用 此 方法 模 
拟 )， 它 所 支持 的 设计 风格 是 硬件 设计 师 一 般 支持 的 风格 。 

决定 动态 调度 和 静态 调度 哪 一 个 更 有 效 的 关键 在 于 电路 行为 的 层次 。 如 果 每 个 时 间 步 内 ， 
一 个 电路 的 变化 只 和 少数 几 个 元 素 相 关 ， 那 么 ， 检 查 变 化 的 动态 调度 可 以 很 快 地 定位 变化 的 
元 素 ， 并 且 使 电路 静止 下 来 ， 而 不 需要 计算 电路 中 没有 变化 的 区 域 。 另 一 方面 ， 如 果 电 路 是 
非常 活跃 的 ， 那 么 笼统 地 更 新 电路 的 所 有 部 分 会 更 加 有 效 ， 因 为 这 时 变化 检查 的 结果 通常 都 
为 真 。 对 于 一 个 特定 的 测试 向 量 集 来 说 ， 很 难事 先知 道 一 个 电路 〈 或 电路 的 一 个 部 分 ) 是 高 
度 活跃 的 还 是 暂时 不 活跃 的 ， 所 以 ， 事 先决 定 静态 调度 和 动态 调度 哪 一 个 更 有 效 就 更 为 困难 。 
但 是 ， 使 用 静态 分 析 来 改进 动态 调度 的 次 序 总 是 可 以 提高 模拟 的 性 能 的 ， 通常 能 提高 4 到 5 倍 。 

我 们 的 经 验 显示 在 硬件 模拟 中 (和 在 并 行 执行 中 一 样 ) 使 用 有 静态 分 析 指 导 的 动态 调度 
可 以 得 到 最 好 的 结果 。 本 节 剩 余部 分 都 假设 采用 这 种 调度 策略 。 

合并 always 块 

我 们 已 知 动态 调度 的 主要 开销 在 于 变化 检查 的 计算 和 传播 ， 所 以 合并 具有 相同 触发 条 件 
的 always 块 是 可 以 实现 的 最 简单 的 优化 之 一 。 合 并 always 块 可 以 增加 每 个 开销 单元 完成 的 计 
算 量 ， 这 样 就 可 以 使 模拟 更 有 效 。 

在 同步 设计 中 ， 合 并 always 块 尤其 重要 ， 因 为 同步 设计 中 事件 是 由 系统 时 钟 的 变化 而 触 
发 的 。 在 同步 设计 中 ， 大 多 数 模块 类 似 于 以 下 形式 : 

module addl(sum, c_out, opl, op2, c_in, clk) 

input opl, op2, c_in, clk; 
output sum c_out; 
always @(posedge(clk)) begin 
sum = opl ^ op2 ^ c_in; 
c_out = (opl & op2) | (op2 & c_in) | (c_in & opl); 
end 
endmodule 
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不 管 输入 值 有 无 变化 ， 时 钟 的 上 升 沿 都 被 用 作 更 新 累加 和 。 当 这 个 同步 加 法 器 用 在 前 面 
介绍 的 异步 加 法 器 〈 只 被 输入 值 触发 ， 和 系统 时 钟 无 关 ) 的 位 置 上 构造 一 个 4 位 加 法 器 时 ， 在 
模块 内 联 之 后 得 到 如 下 结果 : 


module adder(a, b, c, clk) 
input b[0:3], c[0:3], clk; 
output a{0:3]; 
wire carry, temp, templ; 
always @(posedge(clk)) begin 
a[3] = b[3] ^ c[3] ^ 0; 
templ = (b[3] & c[3]) | (c[3] & 0) | (0 & b[3]); 
end 
always @(posedge(clk)) begin 
af2] = b[2] ^ cf{2] ^ templ; 
carry = (b[2] & c[2]) | (c[2] & templ) | (templ & b[2]); 
end 
always @(posedge(clk)) begin 
afl] = b[1] ^ c[1] ^ carry; 
temp = (b[1] & c[1]) | (c[1] & carry) | (carry & b[1]) 
end 
always @(posedge(clk)) begin 
a[0] = b[0] ^ c[0] ^ temp; 
0 = (bf0] & c[0]) | (c[0] & temp) | (temp & b[0]); 
end 


endmodule 


由 于 所 有 的 块 都 触发 同样 的 条 件 ， 所 以 代码 段 
module adder(a, b, c, clk) 
input b[0:3], c[0:3], clk; 
output a[0:3]; 
wire carry, temp, templ; 
always @(posedge(clk)) begin 
af3] = b(3] ^ c[3] ^ 0; 
templ = (b[3] & c[3]) | (c[3] & 0) | (0 & b[3]); 
a[2] = b[2] ^ c{2] ^ templ; 
carry = (b[2] & c[2]) | (c[2] & templ) | (templ & b[2]); 
a[1] = b[1] ^ c[1] ^ carry; 
temp = (b[1] & c[1]) | (c[1] & carry) | (carry & b[1]) 
a[0] = b[0] ^ c[0] ^ temp; 
0 = (b[0] & c[0]) | (c[0] & temp) | (temp & b[0]); 
end 
endmodule 


的 执行 会 更 有 效 ， 因 为 只 引起 一 个 块 的 一 次 调度 开销 而 不 是 四 次 调度 开销 。 虽 然 调 度 一 个 块 
的 开销 不 是 特别 高 ， 但 是 如 果 省 掉 足 够 多 这 样 的 开销 ， 仍 然 会 节省 很 多 模拟 时 间 。 

一 般 说 来 ， 当 一 个 always 块 的 前 趋 块 的 执行 控制 条 件 隐 含 着 它 本 身 的 控制 条 件 为 真 时 ， 
这 个 always 块 就 可 以 合并 到 它 的 前 趋 块 中 。 这 里 假设 前 趋 块 的 条 件 用 来 控制 被 合并 块 的 执行 ， 
并 且 人 允许 如 下 常见 例子 中 的 合并 : 


always @(posedge(clk)) begin 


fon 





个 
Ww 
© 


434 #12 È 


b1kl 
end 

always @(posedge(reset) or posedge(clk)) begin 

b1k2 

end 
这 种 情况 下 ， 合 并 时 需要 复制 一 些 代码 ， 得 到 如 下 的 合并 结果 : 

always @(posedge(clk)) begin 

bikl 
b1k2 

end 

always @(posedge(reset)) begin 

b1k2 

end 

虽然 把 具有 相同 控制 条 件 或 具有 隐 含 控制 条 件 的 always 块 合并 是 一 个 简单 的 优化 ,但 是 
它 并 不 像 最 初 看 上 去 那么 简单 。 主 要 的 问题 涉及 到 并 行 语言 中 固有 的 不 确定 性 。 合 并 always 
块 可 能 会 改变 设计 的 输出 。 虽 然 在 语言 的 语义 中 这 样 的 改变 是 合法 的 ， 但 是 在 优化 之 后 输出 
发 生 了 变化 通常 是 不 会 使 设计 者 感到 高 兴 的 。 很 多 输出 上 的 如 此 改变 显示 设计 存在 有 待 改正 
的 问题 ， 但 是 ， 另 外 一 些 输出 改变 的 麻烦 对 于 设计 者 而 言 是 没有 问题 的 。 模 拟 器 无 法 分 清 这 
两 种 情况 ， 保 证 安全 的 办 法 就 是 避免 所 有 的 输出 改变 。 

为 了 说 明 块 的 合并 是 怎样 改变 设计 的 输出 的 ， 再 来 考虑 前 面 同步 加 法 器 的 例子 ， 其 中 所 
有 的 1 位 加 法 器 都 作 内 联 。 如 果 没 有 合并 ， 最 后 的 结果 依赖 于 always 块 的 触发 顺序 。 如 果 这 些 
块 是 以 程序 中 列 出 的 词法 顺序 被 触发 的 ， 模 拟 就 会 给 出 预期 的 结果 ， 合 并 不 会 改变 输出 。 但 
如 果 它 们 被 触发 的 是 以 词法 顺序 的 逆序 ( Verilog 不 保证 这 种 情况 下 以 这 样 的 顺序 触发 ， 这 种 
情况 的 设计 是 错误 的 )， 那 么 在 原来 的 设计 中 ， 一 个 加 法 器 将 人 在 输入 改变 后 的 3 个 时 钟 周 期 内 
会 得 到 正确 的 结果 ， 因 为 把 进位 从 第 一 位 传播 到 最 后 一 位 需要 很 长 时 间 。 但 是 ， 块 的 合并 
会 改变 这 个 结果 ， 因 为 合并 后 不 同 的 块 (执行 顺序 不 确定 ) 被 合并 成 为 一 个 块 〈 执 行 顺 序 确 
定 )。 借 助 于 不 合并 相互 之 间 存 在 真 依 赖 边 的 块 ， 以 及 不 合并 会 在 一 块 内 沿 进入 它 的 依赖 边 移 
动 的 那些 块 ， 上 述 改变 是 可 以 避免 的 。 

同步 逻辑 中 通常 包含 一 个 控制 这 个 always 块 的 时 钟 沿 以 及 一 个 复位 条 件 。 一 个 非常 常见 
的 模板 是 

always @(posedge(clk) or reset) begin 

if reset then 

// 实现 硬件 复位 的 代码 
else 

// 本 块 真正 的 功能 

end 

由 于 复位 代码 很 少 被 执行 ， 所 以 这 个 块 几乎 总 是 执行 posedge 这 个 条 件 。 对 于 类 似 这 样 的 
情况 ， 把 块 分 裂 成 为 两 块 

always @(posedge(clk)) begin 

if reset then 

// 实现 硬件 复位 的 代码 
else 

// 本 块 真正 的 功能 
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end 
always @(reset) begin 
if reset then 
// 实现 硬件 复位 的 代码 
else 
// 本 块 真正 的 功能 
end 
总 是 有 好 处 的 ， 然 后 识别 变化 的 控制 总 是 意味 着 每 个 块 中 的 只 有 一 个 分 支 被 执行 ， 
always @(posedge(clk)) begin 
// 本 块 真正 的 功能 
end 
always @(reset) begin 
// 实现 硬件 复位 的 代码 


end 
如 此 的 块 合并 就 可 以 把 所 有 复合 的 代码 放 到 一 个 很 少 执行 到 的 块 中 ， 而 把 所 有 其 他 典型 的 代 
码 移 到 一 个 经 常 执行 的 块 中 。 


向 量化 always 块 

对 于 门 级 模拟 来 说 ， 一 个 主要 目标 是 重新 得 到 高 层 抽象 ， 因 为 高 层 抽 象 是 这 些 门 的 模拟 
的 原始 意图 。 已 知 硬件 设计 工具 和 硬件 设计 者 所 做 的 一 个 主要 变换 是 把 抽象 的 操作 分 解 成 位 
操作 ， 所 以 一 个 硬件 模拟 器 的 主要 变换 是 把 这 些 位 操作 重新 组 合成 抽象 操作 。 这 个 重新 组 合 
的 过 程 相当 于 向 量化 。 

向 量化 是 硬件 模拟 中 一 种 重要 的 优化 ， 但 实现 的 方法 和 编译 器 中 的 方法 是 不 同 的 。 其 原 
因 与 硬件 描述 和 输入 语言 的 性 质 有 关 。 我 们 仍然 以 前 面 给 出 的 内 联 后 的 异步 加 法 器 为 例 : 


module adder(a, b, c) 
input b[0:3], c[0:3]; 
output a[0:3]; 
wire carry, temp, templ; 
always @(b[3] or cf3] or 0) begin 
a[3] = b[3] ^ c[3] ^ 0; 
templ = (b[3] & c[3]) | (c[3] & 0) | (0 & bf3]); 
end 
always @(b{2] or c[2] or templ) begin 
a[2] = b[2] ^ c[2] ^ templ; 
carry = (b[2] & c[2]) | (c[2] & templ) | (templ & b[2]); 
end 
always @(b[1] or c[1] or carry) begin 
a[l] = b[1] ^ c[1] ^ carry; 
temp = (b[1] & c[1]) | (c[1] & carry) | (carry & b[1]) 
end 
always @(b[0] or c[0] or temp) begin 
a[0] = b[0] ^ c[0] ^ temp; 
0 = (b[0] & c[0]) | (c[0] & temp) | (temp & b[0]); 
end 
endmodule 


这 个 版 本 做 了 一 点 优化 : 传播 进位 输入 值 0 并 且 标 注 没 有 使 用 进位 输出 位 。 如 果 我 们 去 掉 
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所 做 的 优化 ， 并 且 对 表示 进位 的 元 素 做 标量 扩展 : 
module adder(a, b, c) 
input b[0:3]，c[0:3]; 
output a[0:3]; 
wire carry[0:3] 
always @(b[3] or c[3] or carry[3]) begin 
a[3] = b[3] ^ c[3] ^ carry[3]; 
carry[2] = (b[3] & c[3]) | (c[3] & carry[3]) | (carry[3] & b[3]); 
end 
always @(b[2] or c[2] or carry[2]) begin 
a[2] = b[2] ^ c[2] ^ carry[2]; 
carry[1] = (b[2] & c[2]) |-(c[2] & carry[2]) | (carry[2] & b[2]); 
end 
always @(b[1] or c[1] or carry[1]) begin 
a[l] = b[1] ^ c[1] ^ carry[1]; ; 
carry[0] = (b[1] & c[1]) | (c[1] & carry[1]) | (carry[1] & b[1]) 
end 
always @(b[0] or c[0] or carry[0]) begin 
a[0] = b[0] ^ c[0] ^ carry[0]; 
cout = (b[0] & c[0]) | (c[0] & carry[0]) | (carry[0] & b[0]); 
end 


endmodule 
现在 ， 每 块 之 间 除 了 参数 有 细微 不 同 外 ， 代 码 都 是 相同 的 。 这 正 是 我 们 想 要 得 到 的 ， 因 
为 这 些 块 本 来 就 是 把 同一 个 模块 内 联 到 不 同 的 上 下 文中 得 到 的 。 尽 管 块 之 间 有 依赖 ， 这 些 块 
可 以 合并 为 : 
always @(b[3] or c[3] or carry[3] 
or b[2] or c[2] or carry[2] . 
or b[1] or c[1] or carry[1] 
or b[0] or c[0] or carry[0]) begin 
a[3] = b[3] ^ c[3] ^ carry[3]; 
carry[2] = (b[3] & c[3]) | (c[3] & carry[3]) | (carry[3] & b[3]) 
a[2] = b[2] ^ c[2] ^ carry[2]; 
carry[1] = (b[2] & c{2]) | (c[2] & carry[2]) | (carry[2] & b[2]); 
afl] = b[1] ^ c[1] ^ carry[1]; 
carry[0] = (b[1] & c[1]) | (c[1] & carry[1]) | (carry[1] & b[1]) 
a[0] = b[0] ^ c[0] ^ carry[0]; 
cout = (b[0] & c[0]) | (c[0] & carry[0]) | (carry[0] & b[0]); 
end 


根据 依赖 关系 ， 代 码 可 以 重组 为 


always @(b[3] or c[3] or carry[3] 

or b[2] or c[2] or carry[2] 

or b[1] or c[1] or carry[1] 

or b[0] or c[0] or carry[0]) begin 
carry[2] = (b[3] & c[3]) | (c[3] & carry[3]) | (carry[3] & b[3]) 
carry[1] = (b[2] & c[2]) | (c[2] & carry[2]) | (carry[2] & b[2]); 
carry[0] = (b[1] & c[1}) | (c[1] & carry[1]) | (carry[1] & b[1]) 
cout = (b[0] & c[0]) | (c[0] & carry[0]) | (carry[0] & bf0]); 
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a[3] = b[3] ^ c[3] ^ carry[3]; 

af2] = b[2] ^ c[2] ^ carry[2]; 

afl] = b[1] ^ c[1] ^ carry[1]; 

a[0] = b[0] ^ c[0] ^ carry[0]; 
end 


由 于 最 后 4 个 语句 之 间 没 有 依赖 ， 可 以 进一步 简化 为 
always @(b[3] or c[3] or carry[3] 
or b[2] or c[2] or carry[2] 
or b[1] or c[1] or carry[1] 
or b[0] or c[0] or carry[0]) begin 
carry[2] = (b[3] & c[3]) | (c[3] & carry[3]) | (carry[3] & bf3]); 
carry[1] = (b[2] & c[2]) | (c[2] & carry[2]) | (carry[2] & b[2]); 
carry[0] = (b[1] & c[1]) | (c[1] & carry[1]) | (carry[1] & b[1]) 
cout = (b[0] & c[0]) | (c[0] & carry[0]) | (carry[0] & bf0]); 
a=b^ c ^ carry; 
end 
这 时 已 经 不 能 完全 恢复 原来 的 加 法 ,但 是 产生 和 的 异 或 操作 可 以 由 一 条 不 带 掩 码 的 机 器 
指令 实现 ， 而 不 再 需要 一 系列 带 掩 码 的 单独 指令 。 这 段 代 码 将 可 以 很 好 模拟 (加 法 器 ) ， 因 为 
一 旦 进入 这 个 块 ， 就 会 从 块 的 头 部 一 直 扫 描 到 块 的 尾部 ; 在 扫描 的 结尾 ， 所 有 变量 都 得 到 了 
正确 的 更 新 值 ， 而 不 需要 其 他 的 扫描 。 但 是 ， 计 算 进 位 数组 的 位 操作 会 比较 慢 。 从 平均 的 执 
行情 况 看 ， 向 量化 进位 操作 可 能 可 以 提高 性 能 : 
always @(b or c or carry) begin 
carry[0:2] = (b[1:3] & c[1:3]) | (c[1:3] & carryf1:3]) | (carry[1:3] & b[1:3]); 
cout = (b[0] & c[0]) | (c[0] & carry[0]) | (carry[0] & b{0]); 
a=b^c A carry; 
end 
从 严格 的 语义 的 观点 来 看 ， 这 样 的 向 量化 是 不 对 的 。 但 是 ， 在 此 处 的 上 下 文中 ， 它 是 正 
确 的 ， 因 为 进位 变化 的 传播 会 使 块 被 重新 激活 直到 进位 达到 一 个 定点 值 为 止 。 在 调度 中 使 用 
一 些 静态 的 控制 ， 代 码 可 以 被 有 效 地 转换 成 
always @(b or c) begin 
carry[0:2] = (b[1:3] & c[1:3]) | (c[1:3] & carry[1:3]) | Ccarry[1:3] & b[1:3]); 
cout = (b[0] & c[0]) | (c[0] & carry[0]) | (carry[0] & b[0]); 
end 
always @e(carry) begin 
carry[0:2] = (b[1:3] & cf1:3]) | (c[1:3] & carry[1:3]) | (carry[1:3] & b[1:3]); 
cout = (b[0] & c[0]) | (c[0] & carry[0]) | (carry[0] & b[0]); 
end 
always @(b or c or carry) begin 
a=b’c ^ carry; 
end 
假设 调度 的 结果 是 这 样 的 : 第 一 块 是 被 变化 触发 的 第 一 块 ， 然 后 第 二 块 也 被 触发 ， 直 到 
进位 稳定 ， 然 后 才 是 最 后 一 块 执行 。 这 样 的 调度 需要 的 计算 量 最 小 。 另 外 ， 用 依赖 分 析 可 以 
判定 进位 环 将 在 最 多 三 次 欠 代 内 收 化 ， 所 以 进位 环 块 可 以 被 静态 地 展开 ， 以 避免 对 变化 检查 
的 需求 。 不 考虑 这 个 块 是 被 静态 调度 还 是 被 动态 调度 ， 那 么 关键 的 变换 是 通过 分 布 变换 把 环 
放 在 一 块 内 ， 而 无 环 部 分 放 在 另 一 块 中 。 
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最 后 需要 说 明 ， 一 旦 这 些 块 被 向 量化 ， 且 在 实例 化 中 参数 被 前 向 替换 成 
always @(b or c or carry) begin 
carry[0:2] = (b[1:3] & c[1:3]) | (c£1:3] & { carry[1:2], 0 }) | 
({ carry{1:2], 0 上 & b[1:3]); 
0 = (b[0] & cr[0]) | (c[0] & carry[0]) | (carry[0] & b[0]); 
a=bA^cA^carryi 

end 
然后 可 以 被 简化 为 

always @(b or c or carry) begin 

carry[0:2] = (b[1:3] & c[1:3]) | (c[1:3] & { carry[1:2], 0 }) | 
({ carry{1:2], 0 } & b[1:3]) 
a=b%*c ^ carry; 

end 
这 样 ， 用 模式 匹配 的 方法 很 容易 就 能 识别 这 个 操作 序列 是 一 个 进位 输入 为 0 的 简单 加 法 。 由 于 
从 这 段 代码 进位 输出 位 和 进位 中 间 位 都 没有 在 其 他 地 方 再 被 使 用 ， 所 以 代码 可 以 简单 地 改写 为 

always @(b or c) begin 

a=b+te; 

end 
重新 得 到 设计 者 的 原始 想法 。 代 码 不 能 完全 模拟 一 条 单独 的 加 法 指令 ， 因 为 需要 一 些 掩 码 把 
32 位 结果 化 简 为 4 位 结果 ， 但 是 它 将 能 模拟 所 设计 的 硬件 ， 所 需 时 间 为 实际 时 间 的 倍数 ， 而 用 
门 级 表示 的 模拟 时 间 要 慢 几 个 数量 级 。 

“iF RES 

和 二 值 远 辑 相 比 ， 四 值 逻 辑 会 引入 额外 的 开销 ， 并 且 几 乎 没有 人 愿意 买 到 会 进入 未 知 状 
态 的 硬件 ， 所 以 模拟 性 能 的 一 个 很 明显 的 改进 方法 是 尽 可 能 地 使 用 二 值 逻 辑 。 一 个 四 值 逻 辑 
操作 的 最 快 实现 是 查 表 ， 大 约 需 要 五 条 指令 和 一 次 高 速 缓存 不 命中 的 可 能 。 二 值 逻 辑 的 模拟 
只 需要 一 条 指令 。 然 而 ， 二 值 逻辑 的 模拟 被 向 量化 后 ， 一 个 这 样 的 指令 可 以 完成 32 个 操作 。 
所 以 ,使 用 二 值 逻 辑 的 模拟 比 用 四 值 逻辑 的 模拟 快 3-5 售 。 

但 不 幸 的 是 ， 使 用 二 值 逻 辑 不 是 很 简单 的 事 。 尽 管 ， 除 了 在 少数 竞争 总 线 或 高 速 缓存 初 
始 化 这 类 极 少见 的 情况 下 ， 在 加 电 之 后 ， 未 知 状态 是 不 应 出 现 的 状态 ， 但 是 在 一 个 设计 中 分 
离 出 只 能 看 到 二 值 逻辑 的 区 域 也 是 很 困难 的 。 所 有 的 源 程 序 都 存在 并 且 可 以 使 用 过 程 间 分 析 ， 
这 一 点 为 发 现 没 有 未 知 状态 的 区 域 提供 了 理论 基础 ， 但 是 ， 未 知 状态 事实 上 可 能 由 任何 操作 
引起 ， 这 通常 会 严重 限制 可 以 完全 用 二 值 逻辑 执行 的 区 域 的 数量 。 

但 是 ， 由 于 二 值 逻 辑 比 四 值 逻 辑 高 效 很 多 ， 加 之 未 知 状态 的 检测 只 需要 两 条 或 三 条 指令 ， 
所 以 ， 合 理 的 方案 是 检查 未 知 状态 ， 但 是 快速 默认 执行 的 二 值 逻辑 。 这 种 方案 在 所 有 的 情况 
下 都 能 得 到 适当 的 加 速 比 ， 而 且 不 失 普 遍 性 。 

改写 块 条 件 

同步 块 的 语义 是 : 所 有 变化 都 按 系统 时 钟 信号 的 变化 规则 地 更 新 。Verilog 中 描述 同步 块 
的 方法 使 这 些 块 看 起 来 像 在 每 个 时 钟 信号 都 在 做 重复 的 计算 。 例 如 ， 前 面 描述 的 同步 加 法 器 
被 写成 

always @(posedge(cTk)) begin 

sum = opl ^ op2 ^ c_in; 
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c_out = (opl & op2) | (op2 & c_in) | (c_in & opl); 
end 
其 中 ，sum 和 c_out 在 时 钟 的 每 个 上 升 沿 被 重新 计算 。 这 种 计算 是 多 余 的 模拟 ， 在 实际 的 硬件 
中 不 被 执行 。 硬 件 的 计算 部 件 只 有 当 输 入 值 改变 时 才 改 变 结 果 ; 时 钟 只 是 限制 结果 通过 其 个 
寄存 器 的 手段 ， 使 模块 外 可 以 使 用 这 些 结果 。 如 果 输 入 操作 数 在 两 个 时 钟 周期 之 间 没 有 改变 ， 
那么 不 需要 做 任何 重新 计算 ; 同样 的 结果 会 继续 流 过 那个 寄存 器 。 
把 以 上 的 块 改写 为 如 下 形式 ， 在 模拟 器 中 可 以 具有 同样 的 行为 ， 从 而 可 以 节省 模拟 器 的 
开销 : 
always @(opl or op2 or c_in) begin 
t_sum = opl ^ op2 ^ c_in; . 
t_c_out = (opl & op2) | (op2 & c_in) | (c_in & opl); 
end 
always @(posedge(clk)) begin 
sum = t_sum; 
c_out = t_c_out; 
end 


只 要 输入 的 值 发 生变 化 (大 概 比 时 钟 信号 频率 低 得 多 )， 计 算 会 被 执行 ， 而 且 结 果 被 输出 到 时 
钟 信号 的 输出 寄存 器 。 大 多 数 硬件 设计 者 都 会 按照 这 样 的 风格 设计 ， 但 是 ， 当 设计 者 不 采用 
这 种 风格 时 ， 这 个 变换 可 以 提高 模拟 的 性 能 。 

基本 优化 

虽然 对 模拟 器 的 最 有 效 的 优化 是 那些 试图 重 构 高 层 设计 意图 的 变换 ， 因 此 而 提高 抽象 的 层 
次 ,但 是 本 书 描述 的 许多 编译 器 优化 也 能 提高 模拟 的 性 能 。 例 如 ， 有 利于 发 现 高 层 设计 意图 的 
优化 对 于 用 高 层 形式 表达 的 设计 就 没什么 作用 。 但 是 ， 对 于 无 论 用 什么 层次 的 设计 ， 标 准 的 编 
译 器 优化 可 以 提高 其 高 层 设计 的 性 能 ， 尽 管 它们 提高 的 程度 不 如 重 构 高 层 抽象 的 优化 那么 明显 。 

除了 模块 内 联 之 外 (模块 内 联 实际 上 是 与 过 程 内 联 等 价 的 优化 )， 全 局 编译 器 优化 对 于 提 
高 模拟 性 能 不 是 有 效 的 。 原 因 很 容易 理解 。 对 于 al1ways 块 的 异步 的 、 按 变化 激活 的 语义 来 说 ， 
设计 的 控制 流 图 内 充斥 着 大 量 的 代表 从 一 个 块 到 另 一 块 的 潜在 的 控制 流 边 。 所 以 把 重点 放 在 
always 块 内 的 优化 会 是 最 有 效 的 策略 。 如 果 某 些 块 已 经 被 合并 和 向 量化 ,那么 所 得 到 的 结果 
块 必定 包含 了 大 量 的 计算 。 l 

高 层 设计 中 有 了 时 会 用 到 循环 ， 所 以 向 量化 在 模拟 器 中 是 很 有 价值 的 优化 。 由 于 硬件 描述 
语言 所 支持 的 下 标 形式 是 十 分 有 限 的， 这 就 使 循环 的 向 量化 处 理 十 分 简单 。 其 他 的 有 用 的 优 
化 包括 常数 传播 和 死 代码 消除 。 它 们 的 作用 都 来 自 于 硬件 的 重用 : 设计 者 会 在 可 能 的 情况 下 
重用 模块 和 构件 ， 这 样 就 造成 大 量 通用 的 模块 在 实例 化 的 地 点 被 剪裁 。 例 如 ， 常 数 传播 可 以 
识别 出 进位 输入 位 为 0 的 这 类 情况 ， 死 代码 消除 可 以 消除 无 用 的 进位 输出 位 。 

但 是 ， 可 能 最 有 利 的 优化 是 公共 子 表达 式 消除 。 即 使 在 高 层 设 计 中 ， 也 通常 会 直接 访问 
向 量 的 某 些 位 或 者 一 部 分 ， 以 及 给 这 些 位 赋值 。 这 就 导致 即使 在 简单 的 代码 段 中 也 存在 大 量 
元 余 的 屏蔽 和 移 位 操作 。 公 共 子 表达 式 消除 可 以 检测 到 并 删除 这 些 元 余 。 
12.3.3 综合 优化 

设计 者 在 设计 硬件 使 其 完成 某 些 特定 功能 的 过 程 中 会 插入 很 多 细节 ， 在 模拟 中 的 目标 是 
去 掉 这 些 细节 。 高 层 综合 的 日 标 正好 与 此 相反 ; 它 将 自动 为 设计 者 插入 一 些 细节 ， 这 样 可 以 
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使 设计 者 专注 于 功能 ， 而 对 于 细节 的 关注 由 综合 器 来 完成 。 这 个 目标 和 标准 编译 器 类 似 ， 因 
为 在 程序 开发 中 程序 员 只 需要 描述 他 们 想 要 的 功能 ， 而 从 功能 到 底层 机 器 体系 结构 的 映射 则 
由 编译 器 来 完成 。 所 以 ， 很 自然 地 期 望 综 合 的 过 程 严重 依赖 于 编译 技术 。 

虽然 上 面 的 期 望 在 很 多 方面 是 正确 的 ， 但 是 ， 综 合 中 也 面临 着 一 个 比 任何 标准 编译 器 中 
的 问题 都 困难 的 问题 。 按 照常 规 ( 可 重 定 目标 的 编译 器 除外 ) ， 编 译 器 是 面向 一 个 固定 的 充分 
了 解 的 体系 结构 ， 而 且 通 常 针 对 获得 最 小 执行 时 间 这 个 单一 目标 。 另 一 方面 ， 商 层 综合 面 对 
的 却 不 是 一 个 固定 的 被 充分 了 解 的 体系 结构 ， 因 为 高 层 综合 的 部 分 目标 是 决定 适合 问题 的 体 
系 结构 的 范围 以 及 这 样 的 体系 结构 性 能 如 何 。 类 似 地 ， 综 合 的 目标 不 是 单一 的 。 大 多 数 情况 
下 ， 得 到 最 小 的 周期 时 间 〈 指 硬件 执行 的 速度 ) 是 硬件 设计 的 一 个 重要 考虑 因素 ， 但 是 实现 
结果 的 面积 或 大 小 也 是 很 重要 的 〈 比 一 个 编译 得 到 的 可 执行 文件 的 内 存 覆 盖 区 域 重 要 得 多 )， 
在 某 些 应 用 中 ， 功 耗 也 是 非常 关键 的 。 换 句 话说， 综合 器 更 像 是 一 个 没有 确定 目标 体系 结构 
的 编译 器 ， 而 且 它 具 有 一 系列 在 周期 时 间 、 面 积 、 功 耗 之 间 游 离 的 目标 。 没 有 明确 的 关于 目 
标的 定义 使 综合 成 为 一 个 很 复杂 的 过 程 。 相 当 于 在 编译 器 进行 寄存 器 分 配 时 ， 必 须 决 定 拥有 
的 寄存 器 的 数量 ， 使 其 在 不 超过 面积 和 功 耗 限制 的 条 件 下 达到 最 好 的 性 能 。 在 固定 寄存 器 数 
量 的 情况 下 分 配 寄存 器 是 非常 困难 的 。 

尽管 这 种 复杂 性 是 综合 引进 的 ， 但 是 仍然 是 一 个 编译 器 问题 ， 通 过 一 些 确定 的 方式 ， 本 
书 中 所 描述 的 技术 可 以 为 综合 技术 提供 一 个 坚实 的 基础 。 这 些 技术 不 可 能 在 近期 内 使 高 层 综 
合 完全 自动 化 ， 因 为 优化 标准 没有 很 好 的 定义 和 范围 广泛 ， 这 就 需要 人 的 指导 。 但 是 ， 按 照 
时 间 、 面 积 或 功 耗 的 任何 度量 标准 ， 即 使 在 没有 精确 测量 这 些 因素 之 间 相 互 作用 的 情况 下 ， 
这 些 技术 仍然 能 优化 一 种 实现 结果 。 而 且 ， 设计 者 希望 用 于 综合 的 若干 关键 算法 就 是 本 书 中 
介绍 的 非常 适用 于 分 析 的 那些 算法 ， 如 和 矩阵 乘 、 点 积 和 其 他 向 量 计算 。 

高 层 综合 的 当前 状态 在 很 多 方面 反映 的 是 并 行 体系 结构 编译 器 在 上 世纪 70 年 代 后 期 的 状 
态 。 现 在 ， 高 层 综合 非常 关注 在 不 考虑 跨 循环 迭代 数据 流 的 情况 下 ， 如 何在 一 个 基本 块 内 最 
大 程度 地 开发 并 行 性 。 当 前 综合 器 处 理 具 有 的 增加 可 行 的 并 行 性 的 主要 技术 是 增加 基本 块 的 
大 小 。 循 环 展 开 是 处 理 循环 的 一 个 主要 的 方法 ， 并 且 也 是 当前 惟一 的 方法 。 这 样 的 方案 能 为 
选 代 次 数 少 的 循环 产生 很 好 的 硬件 ， 但 是 ， 这 样 的 方案 对 于 迭代 次 数 多 的 循环 不 能 获得 好 的 
结果 。 同 在 标准 编译 中 一 样 ， 有 效 处 理 大 量 的 循环 需要 在 真实 的 循环 中 调度 计算 ， 在 分 析 跨 
越 循环 选 代 的 值 的 基础 上 对 计算 做 软 流 水 调度 。 当 然 ， 这 里 还 需要 数据 依赖 分 析 。 

正如 读者 所 期 待 的 ， 本 书 中 介绍 的 优化 技术 都 可 以 直接 应 用 在 面向 循环 计算 的 硬件 综合 
中 。 本 节 的 剩余 部 分 将 详细 介绍 编译 器 中 的 技术 和 优化 如 何 应 用 于 面向 循环 的 算法 的 硬件 综 
合 中 。“ 硬 件 综合 ”是 一 个 包含 若干 领域 的 技术 的 概念 。 在 较 低 的 层次 ， 设 计 者 用 门 来 声明 计 
算 ， 综 合 器 为 设计 技术 重新 映射 这 些 门 并 优化 它们 。 在 中 间 层 次 ， 设 计 者 用 时 钟 和 周期 时 间 
来 表示 计算 ， 并 允许 综合 器 优化 这 些 约束 条 件 。 在 最 高 的 层次 ， 设 计 纯 粹 用 功能 行为 来 描述 ， 
把 时 钟 周 期 和 周期 时 间 的 控制 全 部 留 给 综合 器 。 这 也 是 本 节 剩 余部 分 考虑 的 层次 。 在 这 个 层 
次 ， 由 于 设计 者 只 指出 计算 的 行为 ， 所 以 我 们 用 C 作 为 表述 大 多 数 例子 的 语言 。 

本 节 仅 试图 介绍 一 些 关 于 如 何 将 优化 技术 用 于 高 层 综合 的 想法 ， 并 不 涉及 实现 高 层 综 合 
的 精确 算法 。 高 层 综合 算法 本 身 可 以 作为 整 本 书 的 主题 。 

基本 框架 

在 基础 层次 ， 硬 件 综合 的 问题 是 把 诸如 点 积 
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for (i = 0; i<100; i++) 
t= t + ali] * b[i]; 
这 样 的 简单 计算 归 约 成 一 系列 的 门 ， 如 AND, OR, NOT 等 。 解 决 这 个 问题 的 最 简单 的 方法 也 很 
直观 : 把 乘法 转换 成 门 ， 把 加 法 转换 成 门 ， 然 后 再 尝试 优化 所 得 的 结果 以 减 小 面积 、 缩 短 时 
间 以 及 可 能 降低 功 耗 。 在 理想 状态 下 ， 这 个 方案 可 以 实现 ; 但 在 实际 情况 下 ， 它 是 行 不 通 的 。 
原因 是 把 类 似 乘 法 或 加 法 这 样 的 操作 转换 成 门 的 处 理 ， 将 会 在 结果 中 引入 一 些 假设 和 限制 ， 
这 些 假设 和 限制 在 以 后 的 优化 中 是 不 容易 去 掉 的 。 

例如 ， 乘 法 器 的 一 种 做 法 是 跨越 周期 的 边界 把 它们 排 成 流水 线 ， 这 样 一 个 乘法 就 可 以 用 
车 于 时 钟 周期 完成 。 如 果 乘 法 被 转换 成 一 个 流水 线 乘法 器 ， 那 么 作为 优化 的 一 部 分 ， 后 端的 
处 理 可 能 需要 减少 或 者 完全 消除 流水 线 ， 这 个 过 程 是 很 难 自动 完成 的 。 同 样 ， 如 果 插 入 一 个 
非 流 水 线 的 乘法 器 ， 也 可 能 会 需要 使 它 变 为 流水 线形 式 。 在 一 个 乘法 器 中 ， 有 大 量 的 门 ， 可 
能 的 流水 形式 非常 多 ， 难 以 自动 开发 利用 。 所 以 ， 这 个 参数 字 也 难以 自动 得 到 。 流 水 线 仅仅 
是 一 个 部 件 中 可 以 考虑 的 一 个 方面 ， 还 有 其 他 很 多 方面 。 例 如 ， 加 法 器 可 以 是 先行 进位 加 法 
器 、 逐 位 进位 加 法 器 、 保 留 进位 加 法 器 、 半 加 器 、 全 加 器 或 其 他 若干 变形 。 每 种 在 功能 上 都 
有 细微 的 差异 ， 这 些 差 异 是 根据 不 同 的 环境 优化 的 。 自 动 地 将 一 种 形式 的 门 级 表示 转换 为 另 
一 种 形式 是 非常 困难 的 ， 因 为 每 种 形式 在 语义 上 都 细微 的 差别 ， 这 些 差别 都 包括 加 法 作为 一 
个 个 方面 。 当 我 们 同时 考虑 多 个 部 件 时 ， 复 杂 度 就 会 指数 增长 : 把 加 法 器 和 乘法 器 合并 成 高 
AHR- RIM (MAC) 就 是 这 样 一 个 例子 。 虽 然 理 想 的 情况 是 : 输出 的 大 量 的 门 很 可 
能 被 自动 地 优化 成 所 有 可 能 的 变 体 的 最 合适 的 形式 ， 但 是 ， 实 际 上 这 个 搜索 空间 太 大 了 , È 
其 是 在 多 数 部 件 都 由 几 百 个 或 几 千 个 门 组 成 的 情况 下 。 

所 以 ， 优 化 一 个 简单 转换 为 门 的 策略 在 高 层 综合 中 是 低 效 的 。 这 说 明 得 到 一 个 好 的 综合 
结果 的 一 个 关键 方面 是 选择 部 件 。 得 到 一 个 好 的 选择 需要 两 个 条 件 : 要 有 一 个 可 供 选 择 的 丰 
富 的 高 度 协调 的 部 件 库 ， 以 及 为 每 个 操作 符 或 每 组 操作 符 根据 它们 所 在 的 上 下 文选 择 最 优 的 
部 件 。 对 于 一 个 有 经 验 的 设计 者 来 说 ， 借 助 于 一 个 好 的 低层 综合 工具 ， 构 造 一 个 好 的 部 件 库 
是 比较 容易 的 。 但 是 ， 选 择 部 件 的 最 优 集 合 却 比 较 困难 。 

为 了 说 明 其 中 可 能 遇 到 的 一 些 困 难 ， 请 考虑 在 本 段 开始 给 出 的 点 积 的 例子 可 能 发 生 的 情 
况 。 如 果 暂 时 忽略 流水 线 部 件 ， 并 且 假 设 在 每 次 迭代 中 ， 两 个 数组 引用 都 能 在 内 存 中 得 到 ， 
那么 最 简单 的 方案 是 用 一 个 乘法 器 做 乘法 ， 并 和 一 个 全 加 器 链接 完成 计算 。 如 果 使 用 函数 调 
用 的 形式 来 表示 功能 部 件 ， 那 么 所 得 到 的 结果 是 

t = ADD(t, MULTIPLY(LOAD(aLi], LOAD(b[i]))); 、 

假设 所 有 的 功能 部 件 都 能 在 输入 值 准备 好 后 的 1 个 周期 内 得 到 结果 ， 这 个 简单 的 方案 需要 
3 个 周期 把 一 个 新 值 加 到 t 上 (不 考虑 明显 的 流水 线 的 可 能 )。 但 是 ， 设 计 MAC 部 件 的 目的 就 
是 通过 把 乘法 的 结果 直接 送 给 加 法 器 来 加 速 这 样 的 计算 。 使 用 MAC， 可 得 到 

t = MAC(t, LOAD(a[i], LOAD(b[i])); 

这 样 ， 每 次 简单 的 调度 更 新 只 需要 2 个 周期 。 换 名 话说 ， 这 个 简单 的 计算 至 少 有 两 种 不 同 的 可 
行 选择 。 这 个 最 简单 的 形式 很 可 能 不 会 被 使 用 ， 主 要 原因 是 它 没 有 采用 显 式 的 流水 线 调度 ， 
并 且 它 假设 从 内 存 同 时 取 两 个 操作 数 的 能 力 。 尤 其 内 存 的 带宽 是 不 能 忽视 的 问题 。 

很 有 可 能 ， 部 件 的 选择 会 基于 类 似 于 如 下 的 循环 展开 的 形式 : 
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for (i=0; i < 100; i = i+4) 
t= t + alil*b[i] + ari+l]*b[i+l]+ a[i+2]*b[i+2]+ a[i+3]*b[i+3]; 

MH, LEM TIRE AAT REE. EK DEIR HAST Mes Tee; 一 个 很 明显 的 选择 
是 使 用 5 个 加 法 器 和 4 个 乘法 器 。4 个 MAC 也 可 以 同样 好 地 完成 计算 。 但 是 经 常 使 用 的 是 多 个 
输入 的 MAC， 所 以 另 一 种 选择 是 使 用 一 个 4- 输 入 的 MAC， 或 者 使 用 由 一 个 加 法 器 连接 起 来 的 
两 个 2- 输 入 的 MAC。 如 果 加 法 可 以 是 可 再 结合 的 〈 这 对 于 定点 计算 来 说 是 确实 的 ) ， 那 么 表达 
式 可 以 改写 为 使 用 半 加 器 的 形式 ， 这 样 比 使 用 全 加 器 节省 时 间 和 空间 。MAC 在 那些 空闲 的 周 
期 中 也 可 以 被 用 于 作 加 法 或 乘法 。 换 名 话说 ， 在 这 个 例子 中 以 及 在 大 多 数 情况 下 部 件 的 选择 
是 一 个 复杂 的 过 程 。 

虽然 这 个 过 程 是 复杂 的 ， 但 在 编译 器 有 一 项 非常 类 似 的 技术 ， 这 项 技术 已 经 得 到 很 深入 
的 研究 。 这 个 类 似 的 技术 就 是 “复杂 指令 集 计算 机 ”(CISC) 的 指令 选择 。 在 上 世纪 60 年 代 
和 70 年 代 ，CISC 体 系 结构 是 占 主导 地 位 的 体系 结构 ， 它 具有 复杂 的 指令 完成 内 存 和 内 存 之 间 
的 算术 操作 以 及 多 个 算术 操作 。 在 复杂 指令 集 的 体系 结构 中 ， 指 令 选择 对 于 性 能 来 说 远 比 指 
令 调度 要 重要 得 多 ， 所 以 ， 在 编译 器 领域 内 ， 指 令 选 择 得 到 了 广泛 深入 的 研究 。 这 些 研究 的 
结果 是 大 量 树 匹配 的 算法 ， 这 个 算法 对 于 合理 的 限制 和 优化 标准 ， 可 以 产生 最 优 的 指令 选择 
结果 。 这 些 算法 可 以 被 直接 用 于 部 件 的 选择 [46，11，257]。 

快速 有 效 的 树 匹配 算法 的 存在 为 高 层 综 合 和 优化 提供 一 个 简单 的 框架 。 粗 上 略 地 说 ， 高 层 
综合 可 以 被 描述 为 选择 部 件 ， 把 操作 分 配 到 部 件 上 (资源 分 配 ), 然后 当 操作 出 现时 调度 操作 。 
后 两 个 步骤 ( 像 在 常规 编译 器 中 那样 ) 虽然 是 分 别 描述 的 ， 但 是 实际 上 这 两 个 步骤 是 紧密 结 
合 在 一 起 的 ， 因 为 把 操作 绑 定 到 部 件 上 时 就 限制 这 个 操作 何 时 被 执行 。 本 书 中 介绍 的 类 似 的 
编译 器 框架 执行 高 层 优 化 ， 然 后 转换 成 低层 表示 、 寄 存 器 分 配 和 指令 调度 。 理 想 情 况 下 ， 高 
层 优化 在 综合 中 的 位 置 和 在 编译 器 中 是 一 样 的 : 作为 寄存 器 分 配 和 调度 的 前 驱 提 高 性 能 并 提 
供 有 用 的 信息 。 但 是 对 于 综合 来 说 ， 这 样 的 布局 不 是 那么 显而易见 的 ， 因 为 1) 在 综合 中 ， 
优化 标准 比 编译 器 中 多 ， 编 译 器 中 惟一 的 优化 标准 就 是 执行 时 间 ，(2) 综合 时 没有 一 个 明确 
定义 的 目标 ， 如 像 机 器 的 指令 集 或 寄存 器 。 好 在 快速 树 匹配 算法 缓解 了 第 二 个 问题 ， 因 为 这 
些 算 法 能 快速 地 改 为 当前 最 优 的 体系 结构 。 另 外 ， 还 有 一 些 为 简化 问题 所 做 的 假设 ， 这 些 假 
设 可 以 消除 另 一 个 问题 ， 使 得 在 综合 中 可 以 使 用 这 样 的 布局 。 

需要 的 简化 假设 涉及 到 一 些 限制 。 低 层 综 合 有 一 些 限制 ， 如 信号 沿 特定 路 径 传播 所 允许 
的 最 大 时 间 ， 以 及 特定 部 件 所 允许 的 面积 大 小 等 。 这 样 的 限制 很 明显 不 符合 高 层 综合 的 要 求 ， 
因为 高 层 综合 中 只 定义 功能 。 但 是 ， 在 行为 级 ,一些 形式 的 限制 也 是 必需 的 ， 因 为 如 果 没 有 
这 些 限制 ， 综 合 的 结果 很 快 就 会 转向 一 个 完全 没有 用 的 全 局 最 小 值 的 。 例 如 ， 如 果 没 有 对 空 
间 使 用 上 界 的 限制 ， 只 是 一 味 地 减少 时 间 ， 那 么 ， 高 层 综合 工具 将 会 为 计算 中 可 以 并 行 执行 
的 每 个 操作 生成 一 个 单独 的 功能 部 件 一 一 使 并 行 性 最 大 化 。 所 得 到 的 庞大 的 硬件 速度 会 很 快 ， 
但 是 它 也 是 浪费 的 且 在 很 大 程度 上 是 没有 用 的 。 同 样 ， 如 果 没 有 时 间 上 的 最 大 限制 而 一 味 地 
减 小 空间 ， 高 层 综合 将 会 为 每 个 单独 的 操作 只 生成 一 个 功能 部 件 ， 尽 可 能 使 计算 串 行 化 。 这 
又 是 一 个 浪费 的 极端 。 最 有 用 的 结果 介 于 这 二 者 之 间 ， 但 是 如 果 没 有 某 种 形式 的 限制 把 优化 
器 限制 在 这 个 中 间 的 范围 内 ， 那 么 只 可 能 返回 这 些 极端 的 方案 。 

支持 这 个 意图 的 高 层 限 制 的 形式 是 在 所 需 的 功能 部 件 的 数量 和 类 型 上 的 限制 一 一 这 在 本 质 


9 上 是 空间 的 限制 。 功 能 部 件 的 数量 上 的 限制 已 经 被 高 层 设 计 者 所 理解 ， 并 且 在 限制 可 用 功能 
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单元 的 条 件 下 与 最 大 限度 地 减少 整体 时 间 这 个 目标 相 结合 ， 就 能 合理 利用 设计 空间 。 并 且 ， 
这 种 限制 把 高 层 优化 器 推 回 到 它 所 熟悉 的 设计 空间 : 在 固定 的 功能 资源 集合 上 最 小 化 执行 时 
间 ， 然 后 最 小 化 资源 的 使 用 (如 寄存 器 和 内 存 访问 等 )。 在 这 个 空间 内 ， 高 层 优化 之 后 接着 部 
件 选择 、 分 配 和 调度 这 样 的 步骤 是 有 意义 的 。 可 以 预测 ， 基 于 循环 的 变换 以 建立 新 的 功能 单 
元 的 需求 为 代价 ， 可 以 单调 减少 执行 时 间 。 但 是 ， 这 些 功 能 单元 只 是 当前 循环 中 用 到 的 同样 
类 型 的 功能 单元 ， 所 以 ， 在 最 坏 的 情况 下 ， 数 量 上 的 限制 只 导致 操作 在 现 有 功能 单元 的 顶端 
单元 被 调度 ， 而 不 会 减少 执行 时 间 。 

而 且 ， 综 合 器 相对 于 编译 器 在 编译 时 间 需 求 上 的 差别 ， 使 得 可 以 用 一 个 更 强 的 方案 。 理 
想 情况 下 ， 编 译 器 将 优化 并 产生 代码 ， 然 后 用 一 些 合理 的 输入 去 执行 这 些 代码 ， 显 示 结 果 ， 
并 用 其 中 的 反馈 重复 优化 和 产生 代码 的 过 程 。 但 是 ， 这 个 理想 的 模型 在 实际 开发 过 程 中 无 法 
使 用 ， 主 要 是 由 于 所 需 的 周转 时 间 。 但 是 ， 类 似 的 模型 在 综合 的 框架 中 是 可 能 被 使 用 的 。 虽 
然 真正 “执行 ”结果 门 电路 是 不 可 能 的 ， 但是， 可 以 优化 计算 ,选择 部 件 ， 分 配 和 调度 ， 这 
” 样 就 可 以 得 到 要 求 的 执行 时 间 和 面积 的 反馈 信息 ， 然 后 重复 优化 的 过 程 。 基 本 上 ， 这 样 的 方 
案 可 以 用 来 研究 问题 映射 到 不 同体 系 结构 上 的 效果 。 在 高 层 综 合 中 ， 这 样 的 方案 是 可 行 的 ， 
因为 在 综合 的 过 程 中 可 以 产生 硬件 ， 这 就 缓解 了 对 编译 一 次 接 一 次 的 需求 。 

本 节 的 剩余 部 分 假设 采用 上 面 描述 的 优化 框架 : 在 对 功能 单元 限制 的 条 件 下 执行 针对 减 
少 执行 时 间 的 高 层 优化 ， 然 后 是 部 件 选 择 ， 分 配 和 调度 。 但 是 ， 这 个 假设 的 基础 是 树 匹 配 算 
法 足够 快 ， 使 这 个 过 程 在 需要 时 可 以 重复 以 决定 拒绝 或 考察 可 选 的 解决 方案 。 


循环 变换 
正如 执行 顺序 上 的 变化 可 能 影响 执行 速度 一 样 ， 这 样 的 变化 也 可 以 影响 功能 部 件 的 使 用 
情况 ， 进 而 影响 到 被 综合 的 硬件 完成 一 个 计算 所 需要 的 时 间 。 换 句 话 说 ， 循 环 交 换 ， 循 环 分 
布 等 一 些 基于 循环 的 变换 可 以 影响 被 综合 的 硬件 的 效率 。 
为 了 说 明 这 个 问题 ， 我 们 考虑 下 面 这 个 颇 为 常见 的 例子 : 
for (i = 0; i < 100; i++) { 
tli] = 0; 
for (j = 0; j < 3; j+) 
tli] = tli] + (ali - j] > 2); 
} 
for (i = 0; i < 100; i++) { 
o[i] = 0; 
for (j = 0; j < 100; j++) 
oli] = ofi] + m[i]rj] * t[j]; 
} 
这 个 代码 段 的 输入 数据 集合 是 3， 用 一 个 FIR 滤 波 器 使 之 平滑 后 存 和 人 临时 数组 :， 然 后 通过 矩阵 
m 把 它 重新 映射 到 输出 向 量 o 中 。 在 数字 信号 处 理 (DSP) 领域 内 ， 这 样 的 变换 是 十 分 常见 的 。 
假设 有 足够 的 功能 单元 可 以 一 次 完成 加 法 、 移 位 和 乘法 -累加 计算 ， 那 么 需要 10 300 个 周期 来 ”[644 
完成 上 述 计算 . 
如 果 把 循环 分 布 ， 我 们 得 到 
for (i = 0; i < 100; i++) 
tli] = 0; 
for (i = 0; i < 100; i++) 
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for (j = 0; j < 3; j++) 
tli] = tli] + (ali - j] >> 2); 
for (i = 0; i < 100; i++) 
oli] = 0; 
for (i = 0; i < 100; i++) 
for (j = 0; j < 100; j++) 
ofiJ] = oli] + m[i][j] * tli]; 


#12 ¥ 


然后 ， 重 新 排序 循环 的 拓扑 顺序 ， 让 没有 依赖 的 计算 首先 执行 ， 从 而 把 初始 化 计算 移 到 最 开 


始 处 : 
for (i = 0; i < 100; i++) 
tfT] = 0; 
for (i = 0; i < 100; i++) 
oli] = 0; 
for (i = 0; i < 100; i++) 
for (j = 0; j < 3; j++) 
tli] = tli] + (ali - j] >> 2); 
for (i = 0; i < 100; i++) 
for (j = 0; j < 100; j++) 
ofi] = oli] + m[i][j] * tll; 


到 现在 为 卡 ， 还 没有 改善 执行 时 间 。 这 里 存在 几 个 循环 合并 的 机 会 ， 只 要 不 会 增加 功能 
单元 ， 循 环 合并 通常 来 说 都 是 有 用 的 。 如 果 两 个 主要 的 循环 被 合并 了 ， 可 以 实现 执行 时 间 的 
改善 。 在 当前 的 状态 下 ， 不 可 能 合并 这 两 个 循环 ， 因 为 合并 会 导致 后 一 个 循环 得 到 错误 的 


tj] 的 值 。 但 是 ， 如 果 把 后 一 个 循环 的 内 外 层 交 换 : 


for (i = 0; i < 100; i++) 


tli] = 0; 
for (i = 0; i < 100; i++) 
oli] = 0; 


for (i = 0; i < 100; i++) 
for (j = 0; j < 3; j++) 
tli] = t[i] + (ali - jl >> 2); 
for (j = 0; j < 100; j++) 
for (i = 0; i < 100; i++) 
ofi] = ofi] + m£iJLj] * tll; 


那么 ， 就 可 以 执行 循环 合并 了 ， 结 果 是 
for (i = 0; i < 100; i++) 


o[i] = 0; 
for (i = 0; i < 100; i++) { 
tli] = 0; 


for (j = 0; j < 3; j++) 
t[i] = tli] + (ali - j] >> 2); 
for (j= 0; j < 100; j+) 
ofj] = o[j] + m[j][i] * tlil; 
} 


Xft Se He By PA St ER FB 
for (i = 0; i < 100; i++) 
oli] = 0; 
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for (i = 0; i < 100; i++) { 
t= 0; 
for (j= 0; j < 3; j++) 
t=t + (ali - j] >> 2); 
for (j = 0; j < 100; j++) 
ofj] = of j] + m[j][i] * t; 

} 

然后 ， 利 用 由 i 循环 携带 的 a 的 输入 依赖 得 到 

for (i = 0; i < 100; i++) 

o[i] = 0; 

a0 = a[0]; 

al = a{-1]; 

a2 = a(-2]; 

a3 = a[-3]; 

for (i = 0; i < 100; i++) [ 

t = 0; 
t=t + (a0 >> 2) + (al >> 2) + (a2 >> 2) + (a3 >> 2); 
a3 = a2; 
a2 = al; 
al = a0; 
a0 = afi + 1]; 
for (j = 0; j < 100; j++) 
o[j] = o[j] + m[j]Ei] * t; 

i . 

由 于 对 内 存 和 操作 单元 的 需求 大 大 减少 了 ， 所 以 以 上 的 形式 很 容易 在 10 000 周 期 内 完成 。 如 
果 使 用 任何 合理 的 跨 循环 迭代 的 流水 线 ， 那 么 ， 所 需 的 时 间 会 大 幅度 下 降 。 

对 于 提高 执行 效率 有 意义 的 基于 循环 的 变换 包括 如 下 几 种 : 

(1) 循环 合并 : 对 于 两 个 不 用 相同 功能 单元 执行 不 同 的 操作 的 循环 ， 可 以 通过 合并 来 实 
现 这 两 个 循环 之 间 的 流水 线 ， 从 而 第 二 个 循环 就 不 必 等 待 第 一 个 循环 执行 完 再 开始 。 

(2) 循环 分 布 : 循环 分 布 可 以 用 来 把 使 用 相同 功能 部 件 的 操作 分 离开 来 。 由 于 允许 在 每 
个 分 布 后 的 循环 中 没有 冲突 的 不 同 操作 之 间 的 重 人 到， 所以， 这样 做 可 能 会 增加 并 行 度 。 

(3) MEM: 当知 道 一 个 给 定 的 功能 单元 要 流水 线 执行 ( 可 以 通过 实际 的 部 件 选 择 达 到 ) 
时 ， 一 种 保证 这 个 部 件 能 被 充分 利用 的 最 简单 的 方法 就 是 将 使 用 这 个 部 件 的 操作 向 量化 。 上 
面 例子 中 利用 1- 循 环 的 输入 依赖 本 质 上 是 向 量化 j- 循 环 。 

(4) 循环 交换 : 通过 制造 新 的 类 似 MAC 的 配对 计算 的 机 会 ， 循 环 交换 可 以 直接 增加 并 行 
度 。 但 是 ， 增 加 并 行 度 更 有 效 的 方式 或 许 是 增加 其 他 变换 的 机 会 ， 例 如 上 例 中 所 用 的 增加 循 
环 合 并 。 

表 12-1 更 具体 地 说 明 使 用 循环 变换 可 能 改善 的 性 能 的 种 类 。 表 中 包含 一 对 组 合 的 矩阵 乘 
法 所 需要 的 晶体 管 数量 和 以 纳 秒 计 量 的 执行 时 间 。 这 些 数据 提供 离散 余弦 变换 模块 (Discrete 
Cosine Transformation, DCT) 的 核心 ， 离 散 余弦 变换 模块 是 MPEG 和 JPEG 中 计算 密集 的 部 件 
之 一 。 本 书 中 用 到 的 基本 循环 变换 和 合理 的 调度 技术 相 结合 ， 可 以 在 空间 增加 不 大 的 情况 下 
提供 近 10 倍 的 速度 提高 。 其 中 ， 最 大 的 提高 来 自 跨 返 代 的 流水 线 一 一 这 个 变换 在 下 面 “ 流 水 
线 和 调度 ”一 段 中 会 进一步 讨论 。 
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表 12-1 循环 优化 在 DCT 核 心 上 的 效果 ? 


t it 时 下 (ns) GR (RE) 
串 行 37 684 25K 
循环 展开 一 次 23 552 44K 
循环 展开 /链接 18 842 41K 
循环 展开 /多 周期 14 131 42K 
HE AK RAE BE 18 842 50K 
循环 合并 /流水 线 9 476 26K 
循环 和 FU 流水 线 4 040 30K 


© 41: “Exploring DCT Implementations” by G. Aggarwal and D. Gajski, Technical Report UCS-ICS 98-10, 
Department of Information and Computer Science, University of California, Irvine, CA, March 1998, page 23. 


控制 流 和 数据 流 

除 树 匹 配 之 外 ， 部 件 选 择 时 还 需要 考虑 的 因素 之 一 是 控制 流 和 数据 流 之 间 的 差别 。 在 
D: 诺 伊 曼 体系 结构 中 ， 数 据 流 涉及 到 内 存 和 寄存 器 之 间 的 数据 移动 ， 而 控制 流 是 指 由 顺序 
执行 和 分 支 执行 造成 的 程序 计数 器 的 变化 。 但 是 ， 在 综合 后 的 硬件 中 ， 数 据 流 涉及 到 数据 在 
不 同 功 能 部 件 之 间 的 移动 ， 而 控制 流 是 指 在 任何 给 定 的 时 间 步 ， 指 定 哪些 功能 部 件 应 当 工 作 
在 什么 数据 上 。 这 种 情况 下 的 数据 流 更 为 复杂 : 在 每 个 时 间 步 ， 必 须 保证 正确 的 数据 到 达 合 
适 的 功能 单元 ， 而 那个 功能 单元 能 根据 需要 或 者 被 激活 或 者 被 停止 。 这 样 的 额外 控制 需要 一 
个 状态 机 ， 其 中 的 状态 是 原始 计算 中 的 基本 块 ， 状 态 转换 由 基本 块 之 间 的 控制 流 控 制 。 除 了 
引入 这 个 状态 机 之 外 ， 控 制 流 和 数据 流 分 析 在 硬件 中 和 在 编译 器 中 是 一 样 的 。 

但 是 ， 对 于 硬件 中 经 常 使 用 的 部 件 ， 也 还 存在 一 些小 问题 。 考 虑 下 面 简 单 的 代码 段 : 

if (a 

a 
else 
0 = Ci 

如 果 a 为 非 0 值 ， 那 么 输出 o 被 设 为 b 的 值 ; 否则 ， 输 出 o 被 设 为 c 的 值 。 这 段 代码 应 当 被 作为 多 
个 基本 块 来 处 理 ， 并 将 其 伺 人 到 状态 机 中 。 但 是 ， 这 样 的 选择 是 常见 的 ， 有 一 个 标准 部 件 可 
以 完成 这 个 功能 一 一 mux 或 选择 器 。mux 是 一 个 3 (RES) 输入 的 功能 单元 ， 它 使 用 其 中 一 
个 输入 的 值 来 决定 剩余 的 输入 中 那个 输入 会 通过 选择 器 。 这 样 ， 这 段 代 码 就 被 作为 单个 基本 
块 来 处 理 了 。 

mux 和 SSA 中 的 选择 函数 中 非常 相似 : 它们 有 具有 相同 的 功能 。 当 不 同 的 值 通 过 不 同 的 控制 
流 路 径 汇 合 到 一 起 时 ， 外 函数 用 来 表示 对 不 同 的 值 的 选择 ; 在 硬件 中 ，mux 也 需要 同样 的 功能 。 
所 以 ， 使 用 SSA 作 为 内 部 表示 具有 的 附带 好 处 是 容易 检测 到 并 插入 mux 部 件 。 

还 有 一 些 其 他 特殊 的 硬件 结构 也 需要 调整 。 时 钟 的 出 现 把 时 间 引 入 到 计算 中 ， 使 硬件 变 
得 复杂 。 这 样 就 引入 四 类 不 同 的 变量 : 

(1) 连 线 : 线 表示 功能 单元 之 间 的 实际 的 硬件 连接 。 从 门 传 到 线 上 的 结果 立即 可 见 。 线 
在 时 钟 周 期 之 间 不 需要 保存 值 ; 这 一 点 使 它 成 为 编译 器 中 临时 变量 的 硬件 等 价 物 。 

(2) 锁 存 器 : 锁 存 器 表示 在 一 个 时 钟 周期 内 保持 不 变 的 值 ， 但 不 能 保存 更 长 时 间 。 锁 存 
器 可 以 被 看 成 线 ， 它 的 输入 在 周期 中 间 可 能 会 变化 ， 但 是 它 对 它 所 驱动 的 功能 单元 的 输出 必 
须 保持 不 变 ， 至 少 保持 到 周期 结束 。C 语 言 中 没有 和 锁 存 器 直接 类 似 的 成 分 。 
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(3) #48: 寄存 器 对 应 于 C 中 的 静态 变量 ; 它们 能 在 一 个 或 多 个 周期 间 保留 值 。 当 一 个 
变量 的 值 来 自 其 他 状态 时 ， 需 要 用 寄存 器 保存 它 ， 通 过 察看 向 上 暴露 的 使 用 点 ， 很 容易 检测 
到 这 种 情况 。 

(4) AA: 内 存 是 寄存 器 的 特例 ， 它 们 非常 大 (因此 不 能 像 访问 标量 一 样 访问 ) 而 且 有 
很 长 的 不 确定 的 生存 期 。 内 存 对 应 于 C 语 言 中 的 数组 。 . 

线 和 寄存 器 很 容易 通过 活跃 分 析 检 测 ; 所 用 的 算法 类 似 于 检测 循环 选 代 之 间 活 跃 标量 的 
算法 。 锁 存 器 不 会 在 一 个 严格 的 行为 描述 中 出 现 ， 内 存 同 数组 引用 一 样 很 容易 检测 。 数 据 流 
分 析 必 须 检测 并 标记 每 个 变量 的 类 ， 因 为 每 类 需要 不 同 的 硬件 处 理 方法 。 

除了 识别 特殊 的 硬件 结构 和 将 控制 流 图 转换 为 状态 机 外 ， 硬 件 中 的 控制 流 分 析 和 数据 流 
分 析 和 软件 中 的 分 析 是 相同 的 。 在 硬件 中 ， 经 常会 把 控制 流 图 和 数据 流 图 合并 成 一 个 单独 的 
控制 数据 流 图 (CDFG ), 但 是 这 样 做 并 没有 什么 实际 的 好 处 。 事 实 上 ， 当 这 两 种 图 分 开 时 ， 
状态 机 的 生成 通常 会 更 简单 。 

流水 线 和 调度 

选择 部 件 〈( 包括 mux) 之 后 的 步骤 是 调度 这 些 选择 的 部 件 。 像 编译 器 中 的 调度 和 寄存 器 分 
配 一 样 ， 部 件 选择 和 调度 的 顺序 也 不 是 明显 的 。 事实 上 ,硬件 的 调度 可 以 很 清晰 地 分 为 两 个 
不 同 的 任务 : 使 用 依赖 信息 使 循环 实现 流水 线 (这 可 以 在 任何 部 件 选择 前 容易 地 完成 )， 以 及 
使 用 类 似 表 调 度 的 简单 调度 技术 做 最 后 的 调度 (必须 在 部 件 选 择 之 后 完成 )。 

硬件 流水 线 和 软件 流水 线 相 同 ， 类 似 软 流水 的 循环 处 理 方法 可 以 直接 用 在 硬件 调度 上 。 
在 基于 循环 的 算法 中 ， 关 键 的 想法 是 跨 循 环 友 代 调度 计算 以 发 现 不 同 选 代 的 计算 之 间 的 并 行 
性 ， 而 不 是 把 循环 体 作 为 一 个 基本 块 来 调度 。 这 类 调度 可 以 在 源 级 表示 出 来 : 使 用 所 选 部 件 
的 近似 表示 ， 初 步 给 出 循环 中 自然 存在 的 流水 线 。 

在 部 件 选 定 之 后 ， 可 以 再 次 进行 调度 。 如 果 从 一 个 更 早 的 调度 中 在 源 级 实现 流水 线 ， 那 
么 可 以 用 简单 的 调度 把 部 件 组 合 起 来 。 如 果 调 度 过 程 没 有 充分 利用 能 使 用 的 所 有 部 件 ， 那 么 
在 允许 使 用 的 面积 〈( 即 部 件 的 数量 ) 上 施加 更 严格 的 限制 后 进行 重新 调度 ， 以 减少 所 用 功能 
单元 的 数量 。 

减少 访 存 

像 在 编译 中 一 样 ， 得 到 最 佳 执 行 速度 的 关键 因素 之 一 是 把 操作 数 以 一 定 的 速率 提供 给 执 
行 单元 ， 这 个 速率 必须 足够 保持 执行 单元 全 速 运行 。 这 一 点 在 编译 器 为 处 理 器 产生 代码 时 非 
常 重要 ， 同 样 ， 对 于 综合 器 来 说 ， 当 馈 给 外 部 存储 器 中 定制 的 功能 单元 供 数 时 ， 这 一 点 也 非 
常 重要 。 同 执行 单元 的 速度 相 比 ， 访 问 存储 器 的 速度 一 般 是 很 慢 的 ， 所 以 最 大 限度 减少 访问 
存储 器 的 次 数 和 数量 是 很 重要 的 。 

幸运 的 是 ， 这 个 问题 完全 同 编译 器 的 问题 对 应 ， 已 在 第 8 章 和 第 9 章 中 透彻 地 讨论 过 。 那 
两 章 中 描述 的 用 于 解决 这 个 问题 的 技术 包括 : 

(1) 循环 交换 : 循环 交换 可 以 调整 执行 的 顺序 ， 使 操作 数 可 被 重用 ， 这 样 就 可 以 用 寄存 
器 来 保存 被 重用 的 操作 数 而 不 必 把 它们 存 人 内 存 。 

(2) ARAH: 循环 合并 可 以 用 来 增加 操作 数 在 一 个 循环 中 的 重用 次 数 ， 由 此 减少 取 数 
的 次 数 。 

(3) 标量 替换 : 标量 替换 与 其 说 是 一 项 实际 的 技术 ， 不 如 说 它 是 一 个 源 级 变换 ， 标 量 替 
换 使 编译 器 很 容易 识别 出 循环 中 被 重用 的 内 存 位 置 ， 所 以 可 以 把 它们 保存 在 寄存 器 ， 而 不 是 
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存 人 内 存 。 
(4) 循环 分 段 : 内 存单 元 可 以 一 次 返回 多 于 一 个 的 值 一 一 通常 情况 下 ， 一 个 高 速 缓存 行 是 
能 从 内 存 中 取得 的 最 小 数据 单元 。 这 就 意味 着 循环 分 段 、 分 块 其 至 简单 的 向 量化 都 能 用 于 增 
加 “免费 ”得 到 的 操作 数 的 重用 。 
(5) 循环 展开 和 压 紧 : 循环 的 展开 和 压 紧 可 以 减少 内 存 流量 ， 对 软件 和 硬件 都 有 好 处 。 
(6) 预 取 : 如 果 可 以 预测 取 数 的 范围 ， 则 在 使 用 操作 数 前 预 取 可 以 减少 取 数 次 数 。 
这 些 变换 以 及 其 他 一 些 变 换 在 Panda, Dutt 和 Nicolau[223] 中 有 很 详细 的 描述 。 


12.4 小 结 
本 章 讨 论 了 三 种 不 同情 况 下 的 依赖 信息 的 应 用 : 
。C 编 译 : C 为 高 级 优化 提出 了 很 多 挑战 ， 包 括 使 用 很 多 小 过 程 ， 标 准 的 习惯 性 方言 法 ， 缺 
乏 对 别名 的 限制 ， 以 及 副作用 操作 符 等 。 幸 运 的 是 ， 本 书 中 介绍 的 分 析 框架 可 以 成 功 地 改 
用 于 C 语 言 ， 这 一 点 已 在 包括 Ardent Titan 编 译 器 在 内 的 几 种 商用 编译 器 中 都 得 到 验证 [26]。 
“用 硬件 描述 语言 模拟 硬件 :在 模拟 过 程 中 ， 一 个 压倒 性 的 目标 是 最 小 化 模拟 时 间 。 实 现 
这 个 目标 的 主要 策略 是 在 可 能 的 情况 下 ， 恢 复 设 计 者 的 原 有 意图 ， 所 以 模拟 的 是 设计 意 
图 而 不 是 设计 细节 。 由 于 硬件 设计 被 分 解 成 位 操作 ， 所 以 向 量化 是 恢复 原始 抽象 设计 意 
图 的 一 种 很 自然 的 方法 。 但 是 ，always 块 中 隐 含 的 循环 给 优化 环节 引入 一 种 不 同 的 设计 
结构 ， 这 种 结构 用 循环 范围 内 的 依赖 图 不 能 优化 ， 而 必须 使 用 面向 全 局 的 依赖 图 。 
。 从 高 层 描 述 综合 硬件 : 综合 是 把 用 高 层 抽 象 的 方式 书写 的 硬件 设计 翻译 成 可 以 用 低层 硬 
件 实 现 的 过 程 。 从 基本 上 讲 ， 高 层 综合 是 一 个 编译 问题 ， 尽 管 由 于 没有 固定 的 目标 体系 
结构 而 且 优 化 准则 多 变 的 原因 ， 高 层 综合 会 更 加 复杂 。 部 件 选择 大 大 简化 了 这 个 问题 ， 
并 且 可 以 用 类 似 于 CISC 处 理 器 中 选择 代码 的 树 匹 配 技 术 来 实现 。 用 跨 循 环 旭 代 调 度 取 
代 仅 仅 在 单个 块 内 调度 是 使 用 依赖 分 析 的 主要 优点 ， 但 是 还 有 其 他 优点 ， 包 括 得 到 更 好 
的 周期 次 数 ， 增 加 内 存 的 效率 ， 以 及 减少 临时 变量 的 需求 等 。 在 这 个 领域 , 还 有 许多 困 
难 的 问题 需要 解决 ， 但 是 ， 高 级 优化 已 经 在 一 些 关键 的 面向 循环 的 基准 测试 程序 中 显示 
出 对 性 能 的 显著 的 提高 。 

这 里 给 出 的 决 不 是 依赖 分 析 所 有 可 应 用 领域 的 概要 ,但 是 ， 以 上 的 内 容 至 少 说 明 在 并 行 机 和 

向 量 机 的 Fortran 应 用 的 优化 之 外 ， 依 赖 分 析 在 很 多 情况 下 还 是 非常 有 用 的 。 


12.5 实例 研究 

12.2 节 所 介绍 的 优化 C 程 序 的 方案 被 Ardent Titan 编 译 器 采用 [26]， 这 个 编译 器 中 ， 在 C 和 
Fortran 的 前 端 之 间 共 用 中 间 表 示 ， 优 化 器 ， 代 码 生 成 器 ， 人 允许 这 两 种 语言 完全 访问 Titan 的 并 
行 和 向 量 部 件 。 优 化 器 被 设计 成 可 重 定 目标 的 ， 可 以 为 不 同 的 体系 结构 产生 代码 。 这 个 编译 
器 不 仅 在 操作 系统 核心 程序 和 视窗 应 用 程序 领域 取得 成 功 ， 而 且 在 科学 计算 和 图 形 处 理 领 域 
也 很 成 功 。 这 个 编译 器 采用 了 和 以 往 大 多 数 C 编 译 器 非常 不 同 的 方案 , 它 开 发 了 高 层 中 间 表 示 ， 
并 对 中 间 表 示 进 行 分 析 以 寻找 优化 机 会 。 但 是 ， 尽 管 存在 着 这 些 不 同 ， 把 现存 的 应 用 程序 引 
入 到 这 个 编译 器 上 仍然 是 比较 容易 的 。 这 个 编译 器 的 代码 必须 经 常 调整 的 一 个 主要 领域 是 使 
用 副作用 操作 符 时 ， 按 照 语言 定义 操作 的 结果 是 未 定义 的 《例如 a[i]=i++; ). MRR SBS 
果 未 定义 ， 用 户 已 经 逐渐 把 PCC (Portable C Compiler) [161] 的 输出 视 为 正确 结果 ， 而 且 希 户 
所 有 的 编译 器 也 能 得 到 同样 的 结果 。 由 于 Titan 的 作者 之 一 Steve Johnson 也 是 PCC 的 作者 ， 所 
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以 这 个 问题 经 常 引起 激烈 的 争论 。 

基于 语言 的 硬件 开发 领域 ， 尤 其 是 在 高 层 综合 领域 ， 一 直 是 一 个 研究 课题 ， 还 没有 一 个 
被 普遍 接受 的 方法 。 本 章 中 提 到 的 方法 可 提高 由 高 层 描述 产生 的 硬件 的 质量 ， 但 是 并 没有 提 
供 一 个 全 面 的 解决 方案 。 然 而 ， 实 际 上 似乎 可 以 肯定 ， 最 终 会 证 实 获 得 成 功 的 将 是 面向 循环 
的 方案 而 不 是 面向 单个 基本 块 的 方案 。 


12.6 历史 评述 与 参考 文献 

在 上 世纪 80 年 代 ， 出 现 了 第 一 批 商用 向 量化 C 编 译 器 一 一 Convex 向 量化 C 编 译 器 [212] 和 
Ardent Titan C 编 译 器 [24]。 在 这 之 前 ， 虽 然 有 少数 研究 已 经 涉足 了 C 的 向 量化 和 并 行 化 研究 ， 
但 绝 大 多 数 研究 还 是 集中 在 Fortran 上 面 。 由 于 这 两 个 C 编 译 器 的 出 现 ， 使 得 很 多 研究 人 员 把 研 
究 的 重点 集中 在 C 的 指针 和 别名 上 面 [144，206，197，274，152] ,但 是 ， 到 现在 为 止 ， 仍然 
没有 各 个 方面 都 令 人 满意 的 解决 方案 。 
习题 

12.1 为 下 面 的 循环 构造 依赖 图 : 

for (i = 0; i<100; i++) 

a[i] = *pt+; 
12.2 下 面 的 C 循 环 能 够 向 量化 吗 ? 说 明 能 或 不 能 向 量化 的 原因 。 
for (i = 0; i< 100; i++) 
a[i]= b[i++]; 

12.3 在 下 面 代码 段 中 ， 给 出 a[01 和 a[1] 的 正确 值 : 

i=0; 

a[0] =0; 

a[1]=0; 

a[i]=i++; 

12.4 事实 上 ， 所 有 的 体系 结构 都 支持 寄存 器 的 左 移 和 右 移 操作 。 但 是 ， 有 些 体系 结构 并 不 
是 直接 支持 这 些 操作 ， 而 是 支持 “extract” 和 “deposit” 操 作 ， 这 两 个 操作 分 别 表示 从 一 
个 寄存 器 中 取出 一 组 连续 的 位 ， 和 把 一 组 连续 的 位 插入 到 一 个 寄存 器 中 。 例 如 ，extract(a， 
1,3) 会 恰当 地 移 位 以 返回 a 中 的 第 1 位 到 第 3 位 (a[1:3])， 而 deposit(a,0,2,extract(a,1,3)) 
将 会 把 a 的 第 0 位 到 第 2 位 设 为 指定 的 值 ， 这 样 实质 上 就 是 执行 一 个 左 移 操作 。 用 向 量 Verilog 的 
表示 法 ， 如 何 写 出 deposit(a,0,2,extract(a,1,3)) 的 等 价 形式 ? 

12.5 给 定 一 个 小 于 等 于 4 的 正 值 *， 写 出 执行 4- 位 变量 的 左 移 操作 的 Verilog 代 码 。 这 个 代 
码 可 以 被 分 解 成 1 位 的 操作 吗 ? 

12.6 给 定 一 个 大 于 等 于 -4 的 负数 *， 写 出 执行 4- 位 变量 的 右 移 操作 的 Verilog 代 码 。 这 个 
代码 可 以 被 分 解 成 1 位 的 操作 吗 ? 

12.7 你 能 把 习题 12.5 和 12.6 中 的 结果 合并 为 一 个 既 能 执行 左 移 操作 又 能 执行 右 移 操作 的 移 
位 器 吗 ? 


nN 
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编译 数组 赋值 


13.1 引言 

由 于 Fortran 90 的 出 现 ， 数 组 赋值 和 数组 表达 式 成 为 重要 的 语言 结构 。 虽 然 Fortran 90 的 定 
义 历 经 了 13 年 ， 而 且 是 以 一 种 缓慢 的 速度 被 广泛 接受 的 ， 但 是 现在 它 已 经 开始 取代 Fortran 77, 
成 为 科学 计算 编程 所 选择 的 语言 。 

科学 计算 界 没 有 立即 接受 Fortran 90 的 一 个 原因 是 成 熟 的 编译 技术 形成 缓慢 。 这 个 语言 
加 了 许多 新 的 特性 ， 给 实现 者 带 来 了 现实 的 问题 。 因 此 ， 为 了 得 到 与 Fortran 77 编 译 器 水 平 相 
当 的 性 能 ，Fortran 90 编 译 器 必须 做 更 多 的 工作 。 

单单 是 实现 一 个 Fortran 90 的 新 特性 一 一 数组 赋值 语句 的 编译 工作 就 是 复杂 的 ， 本 章 将 对 
此 作 简 单 介 绍 。 虽 然 该 语句 最 初 是 为 了 提供 一 种 直接 描述 并 行 操作 或 向 量 操作 的 机 制 ， 但 是 
它 的 实现 必须 仔细 考虑 用 于 执行 该 语句 的 特定 硬件 。 特 别 在 单 处 理 器 上 实现 数组 赋值 时 ， 这 
个 语句 必须 被 转换 为 一 个 标量 循环 。 这 个 被 称 为 标量 化 〈scalarization ) 的 转换 必须 以 一 种 可 
以 有 效 使 用 存储 层次 结构 的 方式 实现 ， 而 不 管 最 终 的 目标 体系 结构 是 什么 。 

咎 看 起 来 ， 标 量化 好 像 是 简单 的 一 一 简单 地 用 一 个 D0- 循 环 替换 每 个 数组 赋值 ， 循 环 的 索 
引 变 量 在 数组 下 标的 某 个 分 量 的 范围 内 进行 迭代 。 但 是 ， 两 个 原因 使 得 问题 复杂 化 。 首 先 ， 
我 们 希望 避免 大 量 的 存储 空间 需求 和 数组 拷贝 操作 ， 当 我 们 必须 使 用 一 个 由 编译 器 生成 的 大 
小 与 被 赋值 的 数组 元 素 空 间 大 小 一 样 的 临时 数组 时 ， 这 种 操作 是 必要 的 。 而 且 ， 上 述 简单 的 
标量 化 策略 会 为 每 个 数组 赋值 语句 产生 一 个 单 语 名 循环 ， 所 以 一 个 重要 的 优化 是 尽 可 能 多 地 
将 这 些 循环 进行 合并 ， 以 提高 寄存 器 重用 的 数量 。 如 同 我 们 将 看 到 的 ， 依 赖 理论 在 实现 这 些 
策略 中 扮演 一 个 关键 角色 。 

AZ. 一 个 良好 的 标量 化 方案 除了 产生 一 个 正确 的 变换 外 ， 有 两 个 基本 的 目标 : 

(1) 避免 需要 生成 大 小 无 界 的 临时 数组 

(2) 生成 的 标量 化 循环 可 以 用 第 8 章 和 第 9 章 中 介绍 的 技术 进行 优化 ， 以 得 到 良好 的 存储 
层次 结构 的 性 能 

下 一 节 介 绍 正确 的 标量 化 方法 和 由 这 个 处 理 过 程 引 入 的 临时 数组 最 小 化 导致 的 问题 。 虽 
然 这 些 结论 是 从 对 标量 机 器 编译 Fortran 90 得 到 的 ， 但 如 同 13.5 节 中 介绍 的 ， 这 些 结论 可 以 方 
便 地 更 改 到 向 量 寄存 器 机 器 上 。 
13.2 简单 的 标量 化 

标量 化 的 一 个 显而易见 的 策略 是 将 任何 单独 的 向 量 语 句 用 一 个 在 向 量 的 元 素 上 迁 代 的 循 
环 替代 。 考 虑 下 面 的 循环 : 

A(1:200) = 2.0 * A(1:200) 
一 个 标量 的 实现 如 下 : 


Sı DO i = 1, 200 
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Sz AG) = 2.0 * AG) 
ENDDO 

此 处 的 S: 这 个 循环 ， 从 1 到 完成 操作 的 长 度 进行 和 迭代。 标量 语句 S$: 在 任何 一 个 标量 机 器 上 
都 可 以 用 一 个 单元 素 的 操作 实现 。 请 注意 ， 从 向 量 操作 的 迭代 空间 到 结果 循环 的 迭代 空间 之 
间 有 一 个 直接 变换 。 

回想 Fortran 90 的 语义 : 向 量 语句 的 执行 要 保证 对 语句 的 所 有 输入 的 读 取 必 须 在 语句 的 任 
何 结果 被 写 回 之 前 完成 。 这 个 要 求 不 仅 是 自然 的 ， 而且 也 确切 反映 向 量 寄存 器 机 器 上 的 向 量 
部 件 特点 ， 即 数组 片段 在 这 些 部 件 上 的 读 取 或 写 回 通过 单个 操作 完成 。 但 是 ， 这 一 点 与 串 行 
循环 的 语义 是 不 一 样 的 ， 串 行 循环 是 一 个 选 代 接 着 一 个 迭代 执行 的 ， 在 此 基础 上 ， 读 / 写 操作 
是 交替 进行 的 。 当 与 原 例 下 述 变 形 类 似 的 数组 语句 进行 标量 化 时 ， 上 述 的 不 同 是 会 导致 问题 
的 : 

A(2:201) = 2.0 * A(1:200) 

此 处 ， 简 单 的 变换 策略 生成 

DO i = 1, 200 

A(i+1)=2.0 * ACi) 

ENDDO 
PRA eB IZ R SURGE lel. AAA PURER BR 
被 使 用 ， 而 在 向 量 语句 的 实现 中 ， 赋 值 号 右 端 引 用 的 值 必须 是 任何 写 操作 发 生 之 前 原 有 的 值 。 

这 个 例子 显示 在 标量 硬件 上 实现 向 量 语句 不 是 轻而易举 的 。 问 题 的 缘起 是 因为 寄存 器 只 
能 保留 有 单个 的 值 而 不 是 在 赋值 号 右 端 所 需 的 所 有 值 。 这 个 例子 中 显示 的 这 类 错误 称 为 标量 
化 失效 ， 即 语句 的 含义 在 标量 化 过 程 中 被 改变 了 。 

图 13-1 给 出 实现 从 一 个 一 维 数组 赋值 语句 到 一 个 简单 的 标量 循环 的 简单 变换 过 程 Simple 
Scalarize 的 非 形 式 说 明 。 在 输入 程序 中 ， 一 个 向 量 操作 的 范围 由 语句 的 下 标 中 见 到 的 三 元 组 
或 向 量 说 明 符 说 明 ， 其 形式 为 (FR: LOR: 增 量 )。 标 量化 是 通过 检查 赋值 左 端的 三 元 组 决 
定 的 。 


procedure SimpleScalarize(S) 
1/ 3 是 要 被 标量 化 的 语句 
令 Vo=(Lo:Uo:Do) 是 5 左 端 的 向 量 迭 代 说 明 符 ; 
/ 生成 标量 化 循环 
令 i 是 新 循环 的 索引 变革 ; 


生成 语句 DO i= Lo, Uo, Do; 

for each S 中 的 向 量 说 明 符 V=(L:U:D) do 
FA G+ L— Ly) fRAEV; 

生成 一 个 ENDDO 语 句 ; 


end SimpleScalarize 





图 13-1 单个 向 量 操作 的 标量 化 


图 13-1 中 介绍 的 方法 如 何 导致 标量 化 失效 是 显而易见 的 。 由 于 原始 的 语句 要 求 所 有 写 操 
作 要 在 所 有 右 端 的 值 被 读 取 后 再 执行 ， 而 标量 操作 的 顺序 可 能 是 交替 完成 读 取 操作 和 写 操作 
的 ， 所 以 标量 操作 的 顺序 可 能 不 能 保证 原来 的 向 量 语句 的 语义 。 因 此 ， 如 果 一 个 标量 操作 要 
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写 -个 在 稍 后 的 操作 中 要 读 取 的 值 ， 将 产生 一 个 标量 化 失效 。 幸 和 运 的 是 ,借助 依 赖 分 析 ， 这 
种 情况 可 以 被 精确 地 检测 到 。 


原理 13.1 一 个 向 量 赋值 语句 产生 标量 化 失效 ， 当 且 仅 当 标 量化 的 循环 携带 一 个 
真 依赖 。 


为 了 说 明 这 个 原理 的 正确 性 ， 请 回忆 ， 数 组 赋值 的 执行 是 在 完成 这 个 语句 左 端的 任何 写 
操作 前 读 和 人 所 有 的 右 端的 值 。 于 是 仅 有 的 可 能 失效 是 标量 化 的 循环 中 某 次 选 代 写 了 一 个 内 存 
单元 ， 而 这 个 单元 的 值 在 后 面 的 迭代 中 被 读 取 。 这 是 一 个 精确 的 循环 携带 的 真 依赖 的 定义 。 

这 个 原理 提供 一 个 精确 的 机 制 ， 将 导致 标量 化 失效 的 向 量 语句 从 其 他 不 导致 标量 化 失效 
的 向 量 语句 中 区 分 出 来 。 由 于 由 标量 化 循环 携带 的 真 依赖 导致 这 类 失效 ， 这 种 依赖 被 称 为 标 
量化 依赖 。 

为 了 保证 程序 的 正确 执行 ， 编 译 器 必须 不 产生 标量 化 依赖 。 通 过 使 用 临时 存储 这 种 简单 
的 方法 就 可 以 达到 上 述 的 目标 区 79]， 如 下 面 的 例子 中 显示 的 : 

A(2:201) = 2.0 * A(1:200) 

这 个 语句 可 以 被 分 裂 成 两 个 向 量 语句 
T(1:200) = 2.0 * A(1:200) 
A(2:201) = T(1:200) 
(其 中 ，T 是 编译 器 生成 的 临时 数组 ) 然后 利用 图 13-1 的 SimpleScalarize 进 行 标量 化 ， 得 到 下 面 
的 代码 : 
DO i = 1, 200 
TCi) = 2.0 * ACi) 
ENDDO 
DO i = 2, 201 
A(i) = TCi - 1) 

ENDDO 

由 于 T 是 一 个 新 的 数组 ， 它 的 存储 空间 不 会 和 程序 的 数据 数组 重 倒 ， 所 以 这 个 标量 化 的 方 
法 确保 避免 一 个 标量 化 依赖 。 换 句 话 说 ， 由 于 整个 结果 向 量 存放 在 一 个 临时 数组 中 ， 然 后 只 
在 所 有 右 端的 操作 (包括 读 操作 ) 完成 之 后 才 将 结果 向 量 拷贝 到 结果 数组 中 ， 所 以 标量 化 失 
效 被 避免 了 。 

不 幸 的 是 ， 由 于 两 个 原因 ， 这 个 方法 的 代价 是 高 昂 的 : 

。 由 于 T ( 它 的 大 小 可 能 在 编译 时 刻 难以 预测 ) 必须 在 内 存 中 ， 此 方法 需要 大 量 增 加 内 存 

需求 。 而 且 ， 动 态 分 配 数组 T 的 开销 可 能 是 很 大 的 。 

。 该 方法 需要 对 结果 向 量 中 的 每 个 元 素 进 行 存储 ， 然 后 读 入 ， 然 后 再 存储 。 与 不 需要 临时 

数组 的 访 存 相 比 ， 这 对 于 每 个 向 量 元 素 增加 两 次 额外 的 存储 操作 。 如 果 可 以 将 临时 数组 

元 素 保留 在 寄存 器 中 ， 则 会 取得 好 得 多 的 效率 。 

由 于 这 些 缺 点 ， 使 用 完全 长 度 的 临时 数组 存储 最 好 作为 最 后 一 个 手段 。 

请 注意 ， 在 可 能 的 时 候 ， 临 时 数组 存储 的 缺点 可 以 通过 后 面 的 “合并 ”循环 避免 [279]。 两 
个 循环 可 以 安全 地 合并 的 条 件 与 前 面 的 原理 中 指出 的 单个 语句 标量 化 安全 的 条 件 完全 一 样 一 一 
也 就 是 说 ， 如 果 两 个 循环 可 以 被 合法 地 合并 ， 则 原来 语句 应 该 已 经 被 安全 地 标量 化 了 。 所 以 ， 
我 们 更 喜欢 用 一 种 直接 的 测试 以 便 在 可 能 的 情况 下 训 免 生成 临时 数组 。 注 意 ， 循 环 合并 作为 一 
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种 标量 化 优化 仍然 是 有 效 的 。 这 个 题目 将 在 13.6 节 讨论 。 

图 13-2 给 出 一 个 改进 的 标量 化 过 程 SafeScalarize， 通 过 使 用 原理 13.1 中 的 测试 避免 产生 标 
量化 失效 。 首 先 ， 对 于 每 一 个 向 量 语句 计算 出 一 个 完整 的 依赖 图 (不仅 是 对 标量 化 的 循环 )。 
如 果 这 个 语句 本 身 没 有 标量 化 依赖 ， 则 用 SimpleScalarize 对 它 标 量化 : 否则 ， 使 用 临时 存储 以 
保证 安全 。 虽 然 从 图 13-2 中 不 能 明显 看 出 为 什么 需要 构造 完全 的 依赖 图 ( 且 不 仅 是 惟一 可 能 
导致 标量 化 失效 的 真 依赖 )， 但 后 面 几 节 将 清楚 说 明 这 一 点 。 






procedure SafeScalarize(S) 
if 5 没有 标量 化 依赖 
then SimpleScalarize(S); 











else begin 
邻 T 是 一 个 新 的 临时 数组 ， 其 长 度 足 以 容纳 由 5 计算 得 到 的 所 有 元 素 ; 
借助 T 将 8 分 裂 为 9 和 3 ， 使 得 
在 Si 中 ，T 的 值 由 5 的 右 端 赋 值 ， 
而 在 9 中 ，T 的 值 赋 给 8 的 左 端 
SimpleScalarize(S\); 
SimpleScalarize(S,); 





end 





end SafeScalarize 





图 13-2 安全 的 标量 化 


SafeScalarize 保 证 对 每 一 个 向 量 语句 生成 正确 的 标量 化 程序 。 但 是 ， 由 于 使 用 大 的 临时 数 
组 而 降低 性 能 ， 所 以 在 可 能 的 情况 下 最 好 避免 执行 else 子 句 。 下 一 节 介 绍 能 够 不 使 用 临时 存储 
就 可 以 消除 标量 化 失效 的 变换 。 


13.3 标量 化 变换 

只 要 简单 标量 化 的 结果 会 产生 一 个 由 标量 化 循环 携带 的 真 依赖 ， 图 13-2 中 的 SafeScalarize 
过 程 采取 的 就 是 代价 很 高 的 解决 方案 。 这 种 代价 通常 可 以 通过 代码 变换 消除 这 种 依赖 而 避免 。 
下 面 的 几 小 节 介 绍 几 种 可 以 用 于 消除 标量 化 依赖 的 变换 。 虽 然 得 到 正确 的 程序 意味 着 消除 程 
序 中 真 依赖 看 起 来 可 能 是 违反 直觉 的 ， 但 是 请 记 住 这 个 问题 中 的 真 依赖 是 由 标量 化 算法 不 正 
确 地 引入 的 。 在 实施 这 些 变换 中 ， 我 们 仅仅 是 恢复 程序 原来 的 含义 。 


13.3.1 循环 反 转 

考虑 这 个 向 量 语句 

A(2:256) = A(1:255) + 1.0 
图 13-1 中 的 SimpleScalarize 对 于 这 个 例子 将 产生 一 个 标量 化 失效 ， 这 是 因为 每 个 输出 将 被 存储 
在 这 个 标量 循环 的 下 一 个 迭代 中 要 输入 的 位 置 。 但 是 ， 在 解决 这 个 问题 时 可 以 容易 看 出 一 个 
简单 而 优雅 的 方法 一 一 我 们 简单 地 从 后 向 前 执行 这 个 标量 化 的 循环 ， 消 除 循环 携带 的 真 依赖 。 

DO i = 256, 2, -1 

AG) = AG - 1) + 1.0 
ENDDO 


在 这 个 例子 中 ， 在 左 端 存储 的 数组 元 素 改 写 已 被 读 出 的 数组 元 素 -一 这 是 我 们 希望 的 结果 。 
这 个 称 为 循环 反 转 [270] 的 常见 的 变换 在 第 6 章 中 作 过 介绍 。 
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为 了 将 循环 反 转 应 用 于 标量 化 ， 一 个 向 量 语句 首先 被 标量 化 ， 然 后 标量 化 的 循环 被 反 转 。 
从 上 面 的 讨论 中 ， 容 易 看 出 循环 反 转 将 一 个 标量 化 的 循环 携带 的 真 依赖 转换 为 反 依 赖 。 所 以 ， 1659 
它 对 于 标量 化 看 起 来 是 理想 的 。 660 
可 惜 这 个 变换 将 反 依赖 也 映射 为 真 依赖 。 结 果 ， 当 标量 化 的 循环 也 携带 有 一 个 反 依赖 时 ， 
循环 反 转 将 不 能 更 正 一 个 标量 化 失效 ， 如 同 向 量 语句 
A(2:257) = (A(1:256) + A(3:258)) / 2.0 
生成 一 个 直接 的 标量 化 循环 
DO i = 2，257 


ACG) = (AG -1) + ACG + 1))/ 2.0 
ENDDO 


这 个 循环 既 携带 有 一 个 真 依赖 (由 右 端 的 第 一 个 操作 数 引 入 的 )， 又 有 一 个 反 依 赖 (由 第 
二 个 操作 数 引 入 的 )。 如 果 标 量化 循环 被 反 转 ， 

DO i = 257, 2, -1 

AG) = (Ai - 1) + ACE + 1)) / 2.0 

ENDDO 
现在 第 一 个 操作 数 引 入 一 个 携带 的 反 依 赖 ， 第 二 个 操作 数 引 入 一 个 携带 的 真 依赖 。 通 过 简单 
的 观察 ， 从 这 个 例子 得 到 的 教训 可 以 总 结 为 : 循环 反 转 可 以 消除 由 一 个 循环 携带 的 标量 化 失 
效 ， 当 且 仅 当 循 环 不 携带 反 依赖 。 这 个 结论 的 证 明 留 给 读者 作为 一 个 习题 。 

这 个 观察 的 含义 是 ， 当 标量 化 循环 同时 携带 有 真 依赖 和 反 依赖 两 种 依赖 时 ， 需 要 更 复杂 
的 变换 技术 。 输 入 预 取 是 这 类 变换 的 一 种 。 
13.3.2 输入 预 取 

让 我 们 更 细致 地 考虑 前 一 小 节 中 的 例子 : 

A(2:257) = (A(1:256) + A(3:258)) / 2.0 
由 SimplieScaiarize 生 成 的 标量 化 循环 同时 含有 一 个 真 依赖 和 一 个 反 依 赖 ， 所 以 无 论 循 环 和 迭代 采 
用 何 种 执行 次 序 ， 都 有 一 个 标量 化 失效 。 问 题 是 输入 向 量 与 输出 向 量 向 重合， 而 且 输 入 向 量 
间 相 互 重合。 这 导致 简单 的 标量 化 循环 


DO i = 2, 257 
AG) = (ACE - 1) + AG + 1)) / 2.0 
ENDDO 
存储 到 左 端的 第 一 个 元 素 成 为 对 下 一 次 选 代 的 输入 。 661 


由 于 这 个 标量 化 依赖 的 范围 是 一 次 迭代 ， 我 们 可 以 设法 将 这 个 结果 保存 到 一 个 临时 存储 
空间 中 ， 直 至 下 一 次 迭代 的 输入 读 取 完 成 。 令 T1 是 用 来 保存 第 一 个 输入 数组 的 一 个 元 素 ， 并 
令 T2 是 用 来 保存 输出 数组 的 一 个 元 素 。 在 这 个 上 下 文中 对 Tl1 和 T2 的 简单 使 用 如 下 所 示 : 

00 i = 2, 257 

Ti = Ai - 1) 
T2 = (Tl + ACi + 1)) / 2.0 
A(i) = T2 

ENDDO ` 
虽然 这 个 循环 也 有 同样 的 标量 化 问题 ， 我 们 现在 可 以 通过 把 对 TI1 的 赋值 正好 移 到 前 一 次 
迭代 中 T2 存 储 位 置 的 前 面 而 改正 。 重 琶 于 是 被 消除 。 
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Tl = A(1) 

DO i = 2, 256 
T2 = (Tl + A(i + 1)) / 2.0 
Tl = A(i) 
A(i) = T2 

ENDDO 

T2 = (T1 + A(258)) / 2.0 

A(257) = T2 
注意 ， 在 循环 前 插入 了 一 个 初始 化 语句 ，、 而 对 T1 的 赋值 语句 也 被 改写 成 下 一 次 迭代 的 读 出 值 。 
另外 ， 我 们 将 最 后 一 次 迭代 和 剥离， 以 避免 对 A 的 多 余 访 问 。 

这 种 方法 称 为 输入 预 取 ， 古 对 前 述 的 简单 使 用 临时 存储 的 改进 ， 因 为 它 只 需要 长 度 为 1 的 
临时 变量 。 由 于 在 一 个 好 的 标量 寄存 器 分 配方 案 中 ， 临 时 变量 将 被 指派 给 寄存 器 ， 结 果 代 码 
避免 完全 长 度 临 时 数组 的 所 有 和 缺点 。 

输入 预 取 是 比 循环 反 转 更 为 常用 的 方法 ， 因 为 很 多 情况 下 可 以 用 于 许多 循环 反 转 无 法 消 
除 所 有 标量 化 依赖 的 场合 。 现 在 遇 到 的 问题 是 : 它 的 通用 程度 如 何 ? 输入 预 取 使 得 下 一 次 适 
代 的 输入 在 当前 迭代 的 输出 被 写 回 之 前 被 读 取 ， 从 而 避免 输入 的 值 被 那些 输出 的 值 改 写 。 但 
是 如 果 像 下 面 的 例子 那样 ， 输 出 改写 的 是 再 下 一 次 迭代 的 输入 ， 结 果 又 如 何 呢 ? 

DO i = 2, 257 

ACi + 2) = ACi) + 1.0 

ENDDO 

在 此 例 中 ， 由 于 我 们 现在 必须 提前 两 次 迭代 进行 预 取 ， 输 入 预 取 变 得 更 复杂 了 。 这 意味 
着 我 们 必须 总 是 利用 临时 变量 保留 输入 的 两 个 副本 。 假 设 我 们 如 下 定义 变量 T1，T2 和 T3: 在 
对 当前 迭代 的 输出 进行 写 操作 的 点 ，T1l 保 存 下 一 次 迭代 的 输入 ，T2 保 存 再 下 一 次 达 代 的 输入 ， 


.T3 保 存 需 要 写 回 的 输出 。 这 样 ， 可 用 下 述 代码 消除 标量 化 依赖 : 


TL = A(1) 

T2 = A(2) 

DO i = 2, 255 
T3 =Tl+1.0 
T1 = T2 拷贝 下 一 次 迭代 的 输入 
T2 = A(i + 2) 对 再 下 一 次 迭代 的 读 取 
A(i + 2) = T3 、 ! 现在 写 同安 全 的 

ENDDO 

T3 = T1 + 1.0 

Tl = T2 

A(258) = T3 

T3 = Tl + 1.0 

A(259) = T3 


虽然 这 种 形式 的 代码 比 用 图 13-2 中 的 SafeScalarize 过 程 生成 的 代码 访问 主 存 的 次 数 少 ， 它 还 是 
有 缺点 的 一 一 它 产生 一 次 寄存 器 到 寄存 器 的 拷贝 ， 并 且 需 要 大 量 的 标量 寄存 器 。 但 是 ， 如 同 
我 们 在 8.3 节 中 看 到 的 那样 ， 可 以 通过 展开 标量 循环 来 消除 拷贝 操作 ， 且 不 需要 增加 标量 寄存 
器 的 代价 。 

通常 ， 输 入 预 取 可 以 用 于 消除 任何 在 编译 时 刻 已 知 其 依赖 阔 值 的 标量 化 依赖 。 对 于 第 一 
次 夺 代 之 外 的 每 一 次 迭代 ， 该 方法 需要 一 个 寄存 器 临时 变量 和 一 个 额外 的 拷贝 操作 。 有 了 这 
个 限制 ， 输 入 预 取 的 适用 条 件 就 可 以 简单 地 陈述 了 。 


计算 
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原理 13.2 任何 一 个 在 编译 时 刻 已 知 其 依赖 阔 值 的 标量 化 依赖 ， 可 以 通过 输入 预 
取 而 修正 。 


从 依赖 圈 值 的 定义 可 以 直接 得 到 这 个 原理 。 由 于 依赖 国 值 为 1 表明 发 生 预 取 的 迭代 是 紧邻 写 操 
作 选 代 的 下 一 个 迁 代 ， 并 且 由 于 输入 预 取 在 当前 迭代 的 写 操作 之 前 插 人 对 下 一 次 迭代 的 读 取 ， 
这 种 方法 必然 可 以 修正 以 前 的 缺点 。 

图 13-3 中 的 输入 预 取 算法 对 长 度 为 1 的 预 取 距 离 是 有 效 的。 通过 使 用 与 8.2 节 中 类 似 的 方法 
可 以 把 算法 推广 到 更 大 的 装 值 。 





procedure [nputPrefetch(S_loop, D) 
11 S_loop =DO i= L, U, INC: S; ENDDO 是 标量 化 循环 
/ Bie Re Ce ee. Bik SA M SimpleScalarizebp in {t. 
/万 是 表示 标量 语句 标量 化 依赖 的 依赖 图 
1/ D 中 的 每 条 边 e 映 射 一 个 区 域 引用 source(e) 到 男 一 个 引用 target(e)。 依 赖 病 值 总 是 1 
1/ 只 对 真 依赖 使 用 输入 预 取 ， 所 以 source(e) BSH AW 
for eachiJe € D do begin 
创建 -个 称 为 To 的 临时 变量 ; W 可 假定 为 一 个 寄存 器 变量 
/ 必须 后 成 两 个 赋值 诸 句 : 
/一 个 在 标量 化 循环 乙 前 的 初始 化 语句 ， 一 个 在 向 量 语句 S 后 的 下 一 次 迭代 和 输入 的 预 取 语句 
生成 初始 化 语句 To= init_reference, fers 
init_reference 可 以 通过 将 iargete) 中 标量 化 循环 变量 ;的 所 有 实例 用 L 赫 换 而 得 到 ， 
L 是 原来 的 标 车 化 循环 的 下 界 ; 
在 标量 化 循 坏 中 ， 将 更 新 语句 To= update_reference 插 入 在 S 之 后 ， 
其 中 updare_referenace 可 以 通过 将 targee) 中 标量 化 循环 变量 的 所 有 实例 用 i+INC 赫 换 而 得 到 ; 
将 5 中 的 targert(e) 用 To 代替 ; 
end 
1) 现在 ， 我 们 根据 相应 赋值 语句 生成 保存 当前 迭代 输出 的 临时 变量 
创建 一 个 新 的 临时 变 旺 Ti 
在 标量 化 循 坏 的 结尾 插入 赋值 语 名 source(e) =Ti; 
用 Ti 代 棱 3$ 中 左 端的 source(e); 
end /nputPrefetch 





图 13-3 输入 预 取 算 法 


lnputPrefetch 是 一 个 消除 依赖 阐 值 为 1 的 标量 化 依赖 的 过 程 。 这 个 算法 直接 配合 前 述 注解 ， 
具有 标量 化 依赖 边 数 的 线性 时 间 复 杂 性 。 
虽然 预 取 算法 可 以 被 扩充 为 适用 于 依赖 阔 值 大 于 1 的 情形 ， 但 是 实现 的 代价 和 需要 的 寄存 663 
器 数目 增长 非常 快 。 另 一 个 可 选择 的 方法 是 利用 循环 分 裂 来 降低 复杂 性 。 664 
FEV SWE F. PREC RT (AO i ee Re H 
的 。 为 了 说 明 这 种 情形 ， 考 虑 Fortran 9018 4) 
A(1:N) = ACL:N) 7 A(1) 
该 语句 可 以 简单 地 标量 化 为 


DOi=l,N 
ACG) = ACA) / AQ) 
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ENDDO 
这 个 循环 中 ， 从 第 一 次 迭代 到 其 自身 有 一 个 反 依 赖 ， 而 从 第 一 次 选 代 到 所 有 其 他 的 迭代 有 一 
个 携带 的 依赖 ， 所 有 的 这 些 依赖 都 是 由 于 对 引用 A(1) 的 使 用 。 在 Fortran 90 的 语义 中 ，A(1) 的 
值 应 该 是 这 个 循环 的 任何 迭代 开始 执行 前 就 存在 的 值 。 所 以 ， 通 过 对 进入 标量 化 循环 前 需要 
的 单个 值 进行 预 取 ， 可 以 处 理 这 个 例子 。 
tAl = A(1) 
DOi=1,N 
A(i) = A(i) / tal 
ENDDO 
即便 是 这 个 单个 的 常数 值 不 是 在 第 一 次 迭代 中 使 用 ， 这 个 策略 也 可 以 正确 工作 。 下 面 给 
出 的 第 二 个 例子 显示 这 种 情形 更 复杂 的 版 本 。 
ACL:N, 1:M) = ACI:N, 1:M) / SPREAD(X(1:M), 1, N) 
A) CE XE ABS PREAD A EX MEANN, MIR — ANHAR ERE. BEES fi 
单 标量 化 版 本 如 下 
D0 j=1,M 
DOi=1,N 
ACG, j) = AGi,j) / XG) 
ENDDO 
ENDDO 


在 这 个 例子 中 ， 应 该 在 恰好 在 内 层 循环 之 前 的 位 置 实施 输入 预 取 。 


DO j= 1, M 
tx = X(j) 
pboi=1,N 
ACi,j) = A(i,j) / tx 
ENDDO 
ENDDO 


13.3.3 循环 分 裂 
当 标量 化 依赖 的 距离 阅 值 大 于 1 时 ， 对 其 使 用 1nputPrefetch 的 基本 问题 是 必须 把 标量 化 特 
环 中 (从 依赖 源 点 所 在 选 代 开 始 ) 直到 益 值 的 迭代 中 临时 变量 的 值 保存 起 来 。 如 果 这 一 点 可 
以 避免 ， 预 取 就 更 加 实用 了 。 循 环 分 裂 (图 13-4) 是 一 种 完成 这 种 优化 的 方法 。 考 虚 把 下 面 
的 向 量 语句 进行 标量 化 的 问题 : 
A(3:6) = (A(1:4) + A(5:8)) / 2.0 


标量 化 循环 携带 一 个 真 依赖 ， 同 时 携带 一 个 反 依赖 ， 每 一 个 依赖 的 阐 值 为 2。 


00 i = 3, 6 
A(i) = (AG - 2) + A(i + 2)) / 2.0 
ENDDO 


对 InputPrefetch 进 行 扩展 来 处 理 这 个 例子 ，A 的 两 个 元 素 将 需要 临时 变量 。 但 是 ， 由 于 无 
REAM. DERIK, KREE, 我 们 可 以 将 标量 化 循环 改写 为 两 个 相互 独立 的 循环 ， 
二 者 之 间 不 会 相互 作用 。 


DO i = 3, 5, 2 
ACi) = (ACA - 2) + AG + 2)) / 2.0 
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ENDDO 
DO i = 4, 6, 2 

ACi) = (ACi - 2) + ACi + 2)) / 2.0 
ENDDO 


procedure SplitLoop(S_loop, D) 
1/ S_loop = DO i =L, U, INC; S; ENDDO 是 应 被 分 裂 的 循环 
U D 是 包含 这 个 循 坏 中 所 有 标量 化 依赖 的 图 
令 e 是 D 中 的 任何 一 条 真 依赖 的 边 ; 
7 了 :=e 的 阅 值 ; 
all_the_same := true; 
for each DP HJ Ik iode while all_the_same do 
证 < 表示 了 一 个 真 依赖 and epii + T 
or 表示 一 个 反 依赖 
and 7 不 能 整除 e 的 闭 值 
then all_the_same : = false; 
if all_the_same then begin 
eR AL GRR — ANR RI TAER HE ABA: 
Sı DO i1=L, L+T * INC, INC 
S: DO i2=i1, U, T*INC 
S 
ENDDO 
ENDDO; 
令 D: 是 循环 3 的 标量 化 依赖 ; 
InputPrefetch(S, D2); 
end 
end SplitLoop 





图 13-4 循环 分 裂 算法 


这 些 循 环 中 的 每 一 个 的 标量 化 依赖 都 只 跨越 了 一 个 选 代 ， 所 以 可 以 用 简单 的 输入 预 取 方 
法 消除 这 些 依赖 。 请 注意 ， 如 果 反 依赖 具有 的 装 值 不 是 2 的 倍数 ， 则 上 述 分 裂 将 产生 错误 的 结 
果 ， 因 为 这 样 的 话 ， 第 一 个 循环 可 能 对 要 被 第 二 个 循环 读 取 的 地 址 (如 A(i+2)) 进行 写 操作 。 
作为 一 种 风格 上 的 约定 ， 我 们 将 总 是 把 循环 分 裂 写成 两 个 循环 嵌 套 : 
DO i1 = 3, 4 
DO i2 = il, 6, 2 
A(i2) = (A(i2 - 2) + A(i2 + 2)) / 2.0 
ENDDO 
ENDDO 


在 分 裂 形式 中 , 内 层 循环 携带 一 个 阀 值 为 1 的 标量 化 依赖 ,而 外 层 循 环 没有 携带 任何 依赖 。 
现在 可 以 直接 对 内 层 循环 使 用 输入 预 取 ， 得 到 
DO il = 3, 4 
Tl = ACil - 2) 
DO i2 = il, 6, 2 
T2 = (T1 + A(i2 + 2)) / 2.0 
T1 = ACi2) 
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A(i2) = T2 
ENDDO 
ENDDO 


通过 创建 一 个 只 有 单一 的 标量 化 依赖 的 循环 ， 循 环 分 裂 减少 实现 预 取 所 需 的 寄存 器 数目 。 

虽然 对 一 个 携带 有 多 个 依赖 有 每 个 依赖 具有 不 同 的 依赖 阅 值 的 循环 可 以 使 用 循环 分 裂 
[221, 16], 但 是 除非 阀 值 是 相同 的 ， 否 则 循环 分 裂 不 能 产生 一 个 循环 ， 且 这 个 循环 的 所 有 依 
MAA REAR AL. PLA, k 


A(128:392) = A(1:191) + A(65:255) + & 
A(256:512) + A(392:512) 


EAI RED. ACCT ATER, BARA ROAM, BIE 
ASMA TARE Ea. Bt, RMT AA BE. PERS) AE HER A. 
输入 预 取 和 循环 分 裂 的 价值 可 以 如 下 总 结 : 


原理 13.3 ”任何 一 个 标量 化 循环 ， 其 所 有 的 真 依赖 都 有 一 个 相同 的 常数 阔 值 7， 

且 所 有 的 反 依 赖 可 以 被 7 整除 ， 则 这 个 循环 可 以 用 输入 预 取 和 循环 分 裂 进行 变换 ， 使 

得 所 有 标量 化 依赖 被 消除 。 

在 Allen 的 学 位 论文 [16] 中 可 以 找到 这 个 原理 的 证 明 。 

如 果 图 13-2 中 的 SafeScaiarize 过 程 需要 大 量 的 临时 数组 变量 ， 循 环 反 转 、 循 环 对 齐 和 循环 
分 裂 提 供 代价 相 对 低廉 的 方案 。 图 13-5 给 出 一 个 改进 的 称 为 FullScalarize 的 标量 化 算法 ， 与 这 
些 变换 混合 使 用 。 虽 然 不 使 用 临时 存储 空间 时 FullScalarize 不 能 区 分 所 有 可 能 的 Fortran 90 语 
句 ， 但 它 能 够 成 功 地 区 分 在 实践 中 会 遇 到 的 大 部 分 语句 。 


procedure FullScalarize 


for each 向 量 语 句 $ do begin 
假设 5S 已 经 被 标量 化 ， 计 算 5 本 身 的 依赖 ; 
证 $ 没 有 对 自身 的 标量 化 依赖 
then SimpleScalarize(S); 
else if S 有 标量 化 依赖 ， 但 是 没有 自身 的 反 依赖 
then begin 
SimpleScalarize(S); 
反 转 标量 化 循环 ; 
end 
else 话 所 有 标量 化 依赖 的 阔 值 为 1 
then begin 
SimpleScalarize(S); 
InputPrefetch(S); 
end 
else if SHIT AT PREIE BUA TH BAY A BT 
and 所 有 的 反 依 赖 都 有 被 7 整除 的 阔 值 
then SplitLoop(S); 





图 13-5 修改 的 标量 化 算法 
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else if SHAK 12 fk 0-4 FAIS NY H BCT 
and 所 有 的 真 依赖 都 有 被 7 整除 的 阔 值 
then begin 
反 转 该 循环 ; 
SplitLoop(S); 
end 


else SafeScalarize(S); 


end 


end FullScalarize 





图 13-5 (8) 


FullScalarize 对 所 有 含有 一 维 向 量 的 语句 都 可 以 有 效 地 使 用 。 但 是 ，Fortran 90 允 许多 维 
的 向 量 。 多 个 向 量 维 为 新 的 策略 提供 了 机 会 ， 这 一 点 将 在 13.4 节 中 讨论 。 
13.4 多 维 标量 化 

到 目前 为 止 ， 所 有 介绍 过 的 处 理 方法 都 是 针对 一 维 向 量 的 。 但 是 ，EFortran 90 中 的 向 量 语 
名 不 是 局 限 为 一 维 向 量 的 。 例 如 ， 语 名 

A(1:100, 1:100) = A(1:100, 1:100) + 1.0 
在 向 量 赋 值 的 左 端 和 右 端 都 有 多 于 一 个 下 标的 向 量 妈 代 。 在 此 种 情况 下 ， 假 设 维 是 从 左 到 碳 
处 理 的 。 人 例如， 语句 


A(1:100，1:100) = B(1:100, 1, 1:100) 


与 下 面 的 循环 具有 同样 的 作用 : 
DO J = 1, 100 
A(1:100, J) = B(1:100, 1, J) 
ENDDO 


多 维 向 量 的 引入 ， 在 标量 化 过 程 中 创造 了 很 多 新 的 机 会 ， 同 时 也 带 来 了 很 多 新 的 问题 。 
在 最 简单 的 情况 下 ， 多 个 维 可 以 雪 缩 为 一 个 向 量 操作 。 复 杂 的 例子 中 可 能 需要 复杂 的 变换 ， 
例如 利用 循环 交换 得 到 一 个 安全 的 标量 化 。 下 面 几 小 节 讨 论 这 些 变换 ， 以 及 将 它们 应 用 于 对 
多 维 向 量 语句 的 标量 化 中 。 


13.4.1 多 维 中 的 简单 标量 化 
多 维 的 标量 化 意味 着 简单 地 将 每 个 维 的 迭代 算 符 转换 为 一 个 对 应 的 循环 。 例如， 在 语句 


A(1:100, 1:100) = 2.0 * A(1:100，1:100) 


中 ， 利 用 这 个 方法 将 得 到 
DO j = 1, 100 
DO i = 1, 100 
ACi,j) = 2.0 * Ai, J) 
ENDDO 
ENDDO 
在 审视 这 种 风格 的 代码 时 ， 安 全 地 将 多 个 向 量 维 标量 化 的 中 心 问题 是 清楚 的 一 一 当 每 一 个 
标量 化 循环 对 应 一 个 不 同 的 向 量 迭 代 运算 符 时 ， 任 何 一 个 携带 一 个 真 依赖 的 标量 化 循环 ， 就 
改变 了 原来 语句 的 语义 。 所 以 ， 可 以 把 修正 单个 向 量 操作 的 同样 变换 (循环 反 转 、 循 环 对 齐 
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等 ) 用 于 每 个 标量 化 循环 ， 虽 然 其 开销 可 能 比 在 一 维 的 情况 要 高 得 多 。 

一 个 显而易见 的 问题 是 : 标量 化 后 循环 的 次 序 应 该 如 何 ? 在 通常 情况 下 ， 这 个 问题 的 答 
案 依赖 于 目标 机 器 。 例 如 ， 对 于 大 多 数 的 机 器 ， 最 重要 的 目标 是 在 最 内 层 循环 获得 跨 距 为 1 的 
访问 。 但 是 ， 在 一 个 类 似 于 Cray T90 的 向 量 机 上 ， 最 内 层 循环 很 可 能 会 被 向 量化 ， 且 因为 对 
于 大 多 数 的 跨 距 ， 向 量 读 操 作 会 由 于 交错 存 取 存储 器 的 原因 而 获得 好 的 性 能 ， 所 以 最 内 层 
循环 应 该 是 可 能 被 最 有 效 向 量化 的 循环 。 

虽然 可 以 定义 一 个 目标 函数 score 来 反映 对 机 器 的 依赖 ， 这 个 函数 指明 一 个 给 定 的 向 量 操 
作 在 特定 硬件 上 执行 的 速度 ， 但 是 一 个 更 为 简单 的 模型 可 以 适用 于 本 章 的 讨论 。 我 们 将 假设 
更 短 的 跨 距 总 是 更 好 一 些 ， 所 以 对 最 内 层 位 置 的 最 优选 择 是 沿 着 跨 距 为 1 的 列 执行 。 这 样 ， 在 
一 组 多 迭代 算 符 中 最 左 端的 向 量 迭 代 算 符 应 与 最 内 层 循环 相对 应 。 

在 这 些 假设 的 基础 上 ， 将 13.3 节 中 的 结果 扩展 到 多 维 是 简单 而 直接 的 。 每 个 向 量 和 迭代 算 符 
可 以 被 独立 地 标量 化 。 对 任何 引用 的 最 左 端 向 量 迭 代 算 符 的 标量 化 循环 (按照 我 们 的 假设 是 
最 有 价值 的 ) 成 为 最 内 层 循环 ; 对 于 其 余 的 迭代 算 符 ， 从 左 到 右 进 行 标 量化 ， 从 次 最 内 层 位 
置 开 始 ， 向 外 推进 。 

一 旦 得 到 了 一 个 初始 的 循环 次 序 ， 按 照 从 最 外 层 到 最 内 层 的 次 序 对 每 个 标量 化 循环 做 如 
下 的 处 理 : 

(1) 测试 循环 是 否 携带 标量 化 依赖 。 如 果 设 有 ， 则 处 理 下 一 层 循 环 。 

(2) 如 果 标 量化 循环 只 携带 真 依赖 ， 对 循环 进行 反 转 并 处 理 下 一 层 循环 。 

(3) 应 用 输入 预 取 以 消除 其 针对 的 依赖 ， 在 需要 的 情况 下 使 用 循环 分 裂 方 法 。 在 一 开始 ， 
这 种 处 理 可 能 不 希望 越 出 内 层 循环 ， 因 为 寄存 器 将 很 快 会 被 用 完 。 但 请 注意 ， 在 外 层 循 环 中 ， 
预 取 的 是 对 一 个 子 和 矩阵 (剩余 的 维 ) 进行 的 。 这 总 比 下 一 节 中 介绍 的 为 整个 矩阵 生成 一 个 临 
时 存储 要 好 。 

(4) 否则 ， 循 环 携带 有 标量 化 失效 ， 需 要 临时 存储 空间 。 对 这 个 循环 生成 一 个 使 用 临时 
存储 空间 的 标量 化 结果 ， 并 终止 标量 化 测试 ， 因 为 临时 存储 空间 将 消除 所 有 的 标量 化 失效 。 

虽然 在 大 多 数 的 情况 中 ， 这 个 简单 的 策略 可 以 相当 好 地 运用 ， 它 仍然 没有 利用 好 一 个 重 
要 的 机 会 。 当 有 多 个 标量 化 循环 时 ， 它 们 被 执行 的 次 序 不 仅 会 影响 到 标量 化 依赖 ， 而 且 也 会 
影响 到 其 他 变换 的 代价 。 
13.4.2 外 层 循环 预 取 

在 外 层 循环 中 输入 预 取 的 有 效 性 可 以 通过 下 面 的 例子 显示 出 来 : 

A:N, 1:N) = (ACO:N - 1, 2:N + 1) + A(2:N + 1, O:N - 1)) / 2.0 
如 果 我 们 试图 将 列 访问 的 长 度 划 分 为 向 量 寄 存 器 长 度 ， 会 生成 两 个 标量 化 依赖 。 首 先 ， 有 一 
个 方向 向 量 为 “(<,>)” 的 标量 化 真 依赖 ， 包 括 右 端的 第 二 个 输入 。 其 次 ， 有 一 个 方向 向 量 为 
“(>,<)” 的 反 依赖 ， 包 括 右 端的 第 一 个 输入 。 因 此 ， 我 们 不 能 对 外 层 循环 使 用 循环 反 转变 换 。 

但 是 ， 可 能 对 外 层 循环 使 用 输入 预 取 。 如 果 我 们 使 用 这 种 方法 ， 临 时 变量 将 不 是 一 些 单 
变量 ， 而 是 像 如 下 的 输出 代码 中 的 临时 数组 : 

To(1:N) = A(2:N + 1, 0) 

p0 j=1, N-1 


”特定 的 向 量 跨 距 可 能 导致 存 储 的 体 冲 突 ， 降 低 性 能 。 
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TI(1:N) = (A(O:N - 1, j + 1) + To(l:N)) / 2.0 
To(1:N) = AC2:N + 1, j) 
A(l:N, j) = Ti(L:N) 
ENDDO 
Ti(1:N) = (ACO:N - 1, N+ 1) + To(1:N)) / 2.0 
A(1:N, N) = T,C1:N) 
需要 的 临时 空间 总 量 与 原始 矩阵 的 两 行 相同 ， 这 比 整 个 结果 和 矩阵 的 一 个 拷贝 要 求 的 存储 
空间 要 小 得 多 。 但 是 ， 乍 看 起 来 ， 与 利用 简单 方法 需要 的 读 / 写 操作 总 数 相 比 ， 这 个 例子 中 的 
读 操 作 和 写 操作 的 总 数 似乎 要 多 。 这 是 因为 j- 循 环 的 每 一 次 欠 代 将 输入 的 一 行 拷贝 到 Tu 中 ， 
将 输出 的 一 行 拷贝 到 Ti 中 ， 将 Ti 中 的 一 行 拷贝 到 输出 矩阵 中 一 一 与 直接 将 这 些 向 量 操作 标量 化 
相 比 每 个 元 素 多 两 次 读 操作 和 两 次 写 操 作 ， 与 使 用 临时 变量 的 简单 标量 化 相 比 ， 每 个 元 素 多 
一 次 读 操作 和 一 次 写 操 作 。 
但 是 ， 这 个 分 析 是 使 人 迷惑 的 。 当 我 们 标量 化 内 层 循环 时 ， 考 虚 会 发 生 什么 情况 。 
DOi=1,N 
To(i) = A(i + 1, 0) 
ENDDO 
DO j=1,N-1 
DOi=1,N 
Ti(i) = (AGG - 1, J + 1) + T(i)) /2.0 
ENDDO 
DOi=1,N 
To(i) = ACi + 1, j) 
ENDDO 
DOi=1,N 
Ali, j) = TiCi) 
ENDDO 
ENDDO 
DO i=1,N 
Ti(i) = (AG - 1, N+ 1) + T)Ci)) / 2.0 
ENDDO 
DO i=1,'N 
ACi, N) = Ti(T) 
ENDDO 


在 任何 一 个 内 层 循 环 中 都 没有 任何 的 标量 化 依赖 ， 并 且 如 同 我 们 将 在 13.6 节 中 看 到 的 ， 可 
以 使 用 循环 合并 变换 将 所 有 三 个 循环 合并 成 一 个 标量 化 循环 。 
DOi=1,N 
Toi) = ACi + 1, 0) 


ENDDO 
DO j=1,N-1 
DOi=1,N 
Ti(i) = (AGE - 1, j + 1) + Tt(i))/ 2.0 
Toi) = AG +1, j) 
AG, J) = Ti(i) 
ENDDO 


ENDDO 
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DOi=1,N 
Ti(i) = (ACi - 1, N+ 1) + Ti)) / 2.0 
ACi, N) = Ti(i) 
ENDDO 
现在 应 当 清 楚 临时 变量 Ti 不 会 携带 有 用 的 值 跨越 循环 边界 而 且 可 以 由 一 个 寄存 器 代替 。 
因此 ， 最 终 的 代码 与 下 面 的 代码 看 起 来 类 似 : 
D0i=1N 
To(i) = A(i + 1, 0) 


ENDDO 
D0 j=1,N-1 
DOi=1,N 


Ri = (AG - 1, j + 1) + T(i)) /2.0 
Teli) = AGG + 1, j) 
ACG, N) = Ri 
ENDDO 
ENDDO 
D001=1,N 
R, = (ACi - 1, N+ 1) + T(i))/2.0 
ACi, N) = Ri 
ENDDO 
这 段 代 码 中 用 到 的 读 操作 和 写 操作 的 个 数 与 简单 的 标量 化 版 本 是 一 样 的 ， 而 使 用 的 临时 存储 
空间 要 少 得 多 (A 的 一 行 )。 
一 旦 我 们 使 用 了 外 层 循环 的 预 取 来 消除 这 两 个 标量 化 依赖 ， 这 些 依赖 不 会 再 出 现在 内 层 
循环 中 。 因 此 ，、 它 可 以 被 容易 地 标量 化 。 通 常 ， 使 用 外 层 循 环 的 预 取 将 只 会 考虑 消除 被 外 层 
循环 携带 的 依赖 。 仍 然 可 能 需要 内 层 循 环 的 预 取 以 消除 由 该 循环 携带 的 依赖 。 


13.4.3 用 于 标量 化 的 循环 交换 
虽然 从 执行 的 观点 看 ， 选 择 的 循环 次 序 可 能 是 最 优 的 ,但 从 标量 化 的 观点 看 ， 这 个 次 序 
不 总 是 最 优 的 。 例 如 ， 考 虑 


A(2:100, 3:101) = A(3:101, 1:201:2) 
按照 规定 的 次 序 标量 化 ， 将 得 到 


DO i = 3, 101 
DO 100 j = 2, 100 
A(j, i) = A(j +1, 2 * i - 5) 
ENDDO 
ENDDO 


外 肢 循 环 携带 一 个 真 依赖 ， 因 此 有 一 个 标量 化 失效 。 由 于 这 个 循环 还 携带 有 多 个 反 依赖 ， 
且 这 些 依赖 的 阔 值 不 是 规则 的 ， 所 以 无 论 是 循环 输入 预 取 还 是 循环 反 转 ， 都 不 能 消除 这 个 失 
效 。 因 此 ， 这 个 语句 对 其 自身 的 依赖 实际 是 两 个 依赖 ， 方 向 向 量 分 别 为 “(<,>)”( 当 i=3 时 特 
环 写 入 A(*,3) 而 当 i=4 时 循环 将 从 同一 列 中 读 取 ) 和 “(> ,>)”( 当 i=6 时 循环 读 取 A(*,7) 且 随 
后 当 i=6 时 ， 循 环 将 写 人 同一 列 )。 

但 是 ， 如 果 将 这 两 个 循环 交换 ， 我 们 得 到 方向 向 量 “(>,<)” 和 “(>,>)”"。 现 在 ,外 层 循 
环 携带 两 个 反 依 赖 ， 且 可 以 被 容易 地 标量 化 ， 其 长 度 为 1 。 这 样 消除 由 于 内 层 循环 的 两 个 依赖 ， 
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并 且 内 层 循环 也 可 以 容易 地 向 量化 。 


DO i = 2, 100 
D0 j = 3, 101 

| A(j, i) = ACG +1, 2* i - 5) 
ENDDO 

ENDDO 


虽然 这 个 次 序 可 能 没有 最 优 地 使 用 跨 距 的 存储 访问 ， 但 它 比 使 用 临时 存储 空间 高 效 多 了 。 

初 看 起 来 ， 标 量化 循环 的 循环 交换 似乎 应 该 是 不 合法 的 ， 因 为 一 个 标量 化 依赖 从 真 依赖 
被 转换 为 反 依赖 。 但 是 请 记 住 ， 我 们 寻找 的 是 一 种 标量 化 的 方法 ， 使 得 标量 化 循环 不 携带 标 
量化 真 依赖 。 任 何 带 有 这 种 依赖 的 标量 化 都 是 不 正确 的 。 根 据 这 个 判断 标准 ， 原 来 的 标量 化 
是 不 正确 的 ， 但 是 最 后 的 标量 化 是 正确 的 。 通 常 ， 我 们 可 以 自由 地 采用 任何 标量 化 循环 的 次 
序 ， 以 及 每 个 循环 的 任何 方向 ， 只 要 没有 任何 一 个 结果 的 循环 携带 一 个 标量 化 依赖 。 我 们 将 
使 用 这 个 原理 导出 一 个 通用 的 标量 化 算法 。 

即便 是 当 循环 交换 不 能 消除 一 个 标量 化 失效 时 ， 循 环 交 换 仍然 是 一 种 可 以 减 小 临时 空间 
大 小 的 有 用 变换 。 假 设 我 们 希望 切 分 下 面 的 语句 ， 使 得 列 选 代 算 符 与 内 层 循 环 相对 应 : 


A(1:128, 1:128) = A(1:128, 0:127) 


在 外 层 循环 的 简单 标量 化 
DO i = 1, 128 
A(1:128, i) = A(1:128, i - 1) 
ENDDO 


中 ， 外 层 循 环 携带 一 个 真 依赖 ， 这 个 依赖 可 以 通过 外 层 循 环 的 预 取 来 消除 : 
To(1:128) = A(1:127, 0) 
DO i = 1, 127 
Ti(1:128) = To(1:128) 
Tu(1:128) = A(1:128, i) 
A(1:128, i) = Ti(1:128) 
ENDDO 
Ti(1:128) = Te(1:128) 
A(1:128, 128) = Ti(1:128) 


对 列 迭 代 运 算 符 标量 化 ， 并 在 可 能 的 地 方 合并 语句 后 〈 见 13.6 节 )， 这 个 例子 变 成 


DO j = 1，128 
Taj) = A(j, 0) 
ENDDO 
DO i = 1, 127 
DO j = 1, 128 
Ti() = Tol 5) 
To(j) = ACJ, i) 
A(j, i) = 7109) 
ENDDO 
ENDDO 
DO j = 1, 128 
T1(j) = To(j) 
A(j, 128) = T,(j) 
ENDDO 


i 
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由 于 循环 中 现在 对 A 是 从 列 i 读 取 的 ， 仅 有 的 包含 A 的 依赖 具有 方向 向 量 


以 交换 这 些 循环 ， 得 到 
DO j = 1, 128 
To(j) = ACJ, 0) 
ENDDO 
DO j = 1, 128 
DO i=1, 127 
TiCj) = Tol i) 
To(j) = ACG, i) 
A(j, i) = T1(j) 
ENDDO 
ENDDO 
DO j=1, 128 
T1(j) = ToC) 
AC j, 128) = T1(j) 
ENDDO 


现在 可 以 合并 得 到 的 外 层 循 环 ， 产 生 
Do j = 1, 128 
To(j) = ACJ, 0) 
DO i = 1, 127 
TCH) = Taj) 
To(j) = ACG, i) 
ACJ, 128) = Ti(j) 


ENDDO 

TI(j) = Taj) 

A(j, 128) = Ti(j) 
ENDDO 
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由 于 To 和 Ti 的 值 绝 不 会 跨越 j- 循 环 的 不 同 选 代 被 重用 ， 并 且 一 个 好 的 标量 替换 算法 将 使 它 


们 简化 为 标量 变量 。 
DO j = 1, 128 
To = ACJ, 0) 
DO i = 1, 127 
T= To 
T = A(j, i) 
A(j，i) = T 
ENDDO 
Ti = To 
A(j, 128) = T, 
ENDDO 


通过 交换 循环 ， 我 们 消除 了 所 有 临时 存储 空间 和 所 有 多 余 的 读 操作 和 写 操作 。 


注意 ， 当 标量 化 的 次 序 确 定之 后 ， 我 们 可 能 已 经 决定 将 输入 预 取 操 作 移 动 到 内 层 循环 。 
通常 ， 通 过 这 样 的 循环 交换 把 输入 预 取 应 用 于 最 内 层 循环 总 会 更 好 ， 因 为 这 样 可 以 使 需要 的 
临时 存储 空间 达到 最 小 ， 同 时 由 于 保证 临时 变量 可 以 存储 在 寄存 器 而 不 需要 写 回 内 存 ， 使 性 
能 得 到 提高 。 当 然 ， 这 些 工作 必然 大 大 增加 i- 循 环 中 对 A 的 非 单位 跨 距 访问 的 代价 。 

通过 循环 交换 和 循环 合并 提高 寄存 器 使 用 效果 的 通用 方法 是 13.6 节 的 讨论 主题 。 
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13.4.4 通用 的 多 维 标量 化 

我 们 针对 多 维 标量 化 的 通用 方法 将 包括 构造 一 个 用 于 标量 化 循环 嵌 套 的 称 为 标量 化 方向 
矩阵 的 特殊 数据 结构 。 假 设 我 们 希望 切 分 一 个 具有 m 个 向 量 维 的 语句 。 假 设 (1, ba, …, Im) 代表 
通过 某 种 代价 -效益 分 析 确 定 的 标量 化 循环 从 最 外 层 到 最 内 层 的 理想 次 序 。 令 (qi, di,.…, dn) 
是 由 循环 代 套 中 某 个 循环 所 携带 的 这 个 语句 对 自身 的 所 有 真 依赖 和 反 依 赖 的 方向 向 量 ， 其 中 
每 个 反 依 赖 的 方向 向 量 中 的 方向 都 被 反 转 。 这 个 语句 的 标量 化 方向 纸 阵 是 一 个 mx mm 矩阵 ， 对 
所 有 的 x:，1 <k<n， 它 的 第 k 行 元 素 “<”,“>” 或 “=” 由 dd 构成 。 例 如， 在 语句 

ACI:N, 1:N, 1:N) = ACO:N - 1, 1:N, 2:N + 1)+& 

A(l:N, 2:N + 1, O:N - 1) 


中 ， 如 果 选 择 循环 次 序 使 得 最 内 层 循 环 在 一 个 列 上 进 代 ， 我 们 得 到 下 面 的 标量 化 方向 矩阵 : 


如 果 检 查 这 个 方向 矩阵 的 任意 列 ， 我 们 可 以 直接 发 现 是 否 对 应 的 循环 可 以 被 安全 地 标量 
化 为 循环 代 套 的 最 外 层 循 环 : 

* 如 果 一 列 中 所 有 的 项 都 是 “=” 或 “>”， 循环 可 以 被 安全 地 标量 化 为 最 外 层 循 环 ， 且 不 

需要 循环 反 转 。 

*。 如 果 一 列 中 所 有 的 项 都 是 “<” 或 “=”， 循环 可 以 被 安全 地 标量 化 为 最 外 层 循环 ， 但 要 

用 循环 反 转 。 

。 如 果 一 列 中 所 有 的 项 都 是 “<” 和 “>”， 循环 不 能 用 简单 的 方法 标量 化 。 

在 前 面 的 例子 中 ， 建 议 的 外 层 循 环 不 能 用 简单 的 方法 标量 化 ， 但 是 如 果 将 其 他 两 个 循环 
中 的 任 一 个 移 到 最 外 层 的 位 置 ， 它 们 都 可 以 用 简单 的 方法 标量 化 。 

一 旦 选中 了 一 个 循环 做 标量 化 ， 由 这 个 循环 携带 的 依赖 一 -任何 其 方向 向 量 中 与 被 选择 的 
循环 对 应 的 位 置 不 含有 “=” 的 依赖 一 一 可 以 在 进一步 的 考虑 中 被 消除 。 因 此 内 层 循环 的 标量 
化 可 以 限制 为 对 方向 矩阵 的 一 个 子 矩 阵 的 分 析 ， 这 个 子 矩 阵 是 将 原始 矩阵 中 选择 的 列 和 该 列 
中 符号 不 是 “=” 的 所 有 行 删除 得 到 。 在 我 们 的 例子 中 ， 我 们 可 以 选择 第 二 列 作为 标量 化 的 外 
层 循环 。 如 果 我 们 将 这 一 列 向 外 移动 ， 标 量化 矩阵 变 为 








采用 这 种 方法 的 标量 化 将 在 进一步 的 考虑 中 删除 第 二 行 ， 把 标量 化 矩阵 简化 为 
[> <] 
”最 左 端的 列 与 先前 的 外 层 维 对 应 ， 它 现在 可 以 不 进行 反 转 而 被 标量 化 。 一 旦 这 一 步 完成 ， 
所 有 的 依赖 都 消除 了 ， 且 内 有 层 的 维 很 容易 被 标量 化 。 在 这 个 例子 中 ， 得 到 如 下 的 代码 : 


D0 j=1,N 
DOk=1,N 
DOi=1,N 
AG, j, ky) = AG - 1, j,k+1)+Ai,j+1,k-1) 
ENDDO 
ENDDO 
ENDDO 
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图 13-6 中 的 算法 是 对 这 种 方法 的 更 形式 化 的 描述 。 这 个 算法 假设 标量 操作 在 一 开始 已 经 
按照 循环 表 loop_list 中 最 优 的 执行 次 序 从 最 外 层 到 最 内 层 进行 了 排序 。 在 可 能 不 使 用 临时 存储 
空间 的 情况 下 ， 该 算法 试图 保持 这 个 次 序 。 

CompleteScalarize 的 变形 可 以 适用 于 不 同 的 机 器 类 型 。 对 于 临时 存储 空间 的 减少 不 比 按 跨 
距 为 1 的 维 进行 访问 有 价值 的 机 器 ， 这 个 算法 可 以 调整 为 排除 选择 内 层 的 循环 ， 直 到 所 有 其 他 
循环 已 经 被 标量 化 。 

这 个 算法 的 时 间 复 杂 性 不 会 比 0(m2n) EZ, 其 中 mm 是 循环 的 个 数 ， 而 n 是 依赖 的 个 数 。 为 
了 证 明 这 一 点 ， 考 察 对 下 一 个 可 以 被 标量 化 的 列 的 搜索 ， 它 不 会 耗费 超过 O(mn) 的 时 间 ， 因 为 
它 对 每 个 元 素 的 检查 一 定 不 会 超过 一 次 。 由 于 有 m 个 循环 ， 我 们 需要 这 样 做 的 次 数 不 超 过 m 次 。 


procedure CompleteScalarize(S, loop_list) 
4 CompleteScatarizei A EA E MEE E 8 [el AY BEE TD — SRR EE 
/ Ske Sr RCH yy; 
Il ioop_Lsl! 是 按 “ 最 优 ” 执 行 顺 序 排序 的 一 个 循环 表 。 
令 M 是 从 将 8 标量 化 为 oopP_1ist 得 到 的 标量 化 方向 矩阵 
while 有 其 余 可 被 标量 化 的 循环 do begin 
令 ! 是 循环 表 中 第 一 个 可 以 简单 标量 化 的 循环 ， 无 论 是 否 使 用 循环 反 转 
(通过 从 左 到 右 检查 M 中 的 列 确定 这 个 循环 ) ; 


让 不 存在 这 样 的 ! then begin 
令 ! 是 loop_list 中 的 第 一 个 循环 ; 
通过 输入 预 取 的 方法 切 分 5 


许 前 面 一 步 失败 
then 利 用 简单 的 临时 存储 方法 切 分 5 并 退出 ; 
end . 
else // 将 / 变 成 最 外 层 循环 
根据 M 中 对 应 的 项 ， 直 接 切 分 1， 
或 者 借助 使 用 循环 反 转 切 分 /; 
将 I! 从 loop_list 中 删除 ;，. 
令 M' 是 在 M 中 删除 了 与 ! 对 应 的 列 以 及 在 那 一 列 
对 应 的 位 置 是 非 “=” 项 的 行 后 得 到 的 ; 
M:=M'; 
end 
end CompleteScalarize 





图 13-6 一 个 完全 的 标量 化 算法 


对 于 一 个 给 定 的 语句 S 和 一 个 循环 表 ，CompleteScalarize 生 成 一 个 正确 的 标量 化 结果 ， 并 
有 如 下 的 性 质 : 

(1) 对 可 能 的 最 内 层 循环 实施 输入 预 取 。 

(2) 标量 化 循环 的 次 序 是 可 能 的 最 接近 于 满足 性 质 (1) 的 标量 化 中 输入 预 取 指 定 的 次 序 。 

从 方向 矩阵 的 定义 得 到 正确 性 。 由 于 可 以 自由 选择 任何 一 个 不 会 导致 标量 化 失效 的 循环 
作为 最 外 层 的 标量 化 循环 ,我们 只 需要 寻找 其 携带 的 所 有 依赖 都 是 反 依赖 或 真 依赖 的 某 个 循 
环 。 在 第 一 种 情形 中 ， 标 量化 循环 是 按 正常 次 序 迭 代 的 ， 而 在 第 二 种 情形 中 ， 标 量化 循环 是 
按 反 转 次 序 和 迭代 的 。 
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- 且 选 定 最 外 层 的 标量 化 循环 ， 这 个 循环 携带 的 依赖 就 不 会 是 某 个 内 层 循 环 的 标量 化 依 
赖 ， 因 为 在 这 样 一 个 依赖 中 ， 依 赖 源 和 依赖 目标 中 外 层 循 环 索引 标量 的 值 必 定 是 不 等 的 。 对 
于 一 个 发 生 在 内 层 循 环 的 标量 化 失效 ， 它 的 发 生 必然 是 因为 对 于 外 层 循环 素 引 变量 的 同样 的 
值 的 情况 下 ， 内 层 循 环 索引 变量 的 两 个 不 同 的 值 访 问 了 同一 个 内 存单 元 。 只 有 在 依赖 对 应 于 
外 层 循环 的 位 置 是 一 个 “=” 号 时 ， 这 种 情况 才 是 可 能 的 。 因 此 ， 消 除 被 外 层 循 环 携带 的 依赖 
是 正确 的 。 

一 旦 矩阵 中 只 有 “<” 和 “>” 都 出 现 的 列 ， 就 使 用 输入 预 取 。 一 旦 使 用 了 这 种 方法 ， 则 
由 使 用 这 种 方法 的 循环 携带 的 依赖 可 以 被 消除 (根据 上 面 的 论证 )， 且 继续 进行 处 理 。 

为 了 证 明 性 质 (1)， 我 们 必须 说 明 不 存在 一 个 与 本 算法 选择 的 序列 不 同 的 一 个 循环 序列 的 
选择 ， 在 这 个 选择 中 要 求 输入 预 取 只 能 发 生 在 比 CompletesScaiarize 选 定 的 序列 中 更 深 的 嵌 套 层 
次 。 换 名 话说， 在 构造 一 个 标量 化 循环 代 套 的 某 一 步 ， 对 于 下 一 个 外 层 循 环 的 选择 可 能 多 于 一 
个 。 有 可 能 出 现 错误 的 选择 会 允许 在 输入 预 取 前 有 一 个 另外 的 循环 选择 吗 ? 如 果 循 环 选 择 的 过 
程 具有 有 限 Church-Rosser 性 质 [12，245]， 答 案 是 否定 的 ， 此 性 质 在 任何 序列 达到 相同 的 界限 
时 成 立 。 在 循环 选择 系统 中 ， 只 有 有 限 个 循环 ， 且 每 一 步 只 选择 一 个 循环 ， 这 一 事实 决定 了 有 
限 性 。 所 以 ， 每 个 选择 序列 的 终结 是 循环 表 处 理 完结 ， 或 是 达到 需要 输入 预 取 的 状态 。 

为 了 证 明 这 种 选择 总 可 以 达到 相同 的 界限 ， 我 们 必须 定义 此 处 的 “相同 ” 指 的 是 什么 。 
从 我 们 的 目的 考虑 ， 一 个 问题 的 构 型 是 由 方向 矩阵 定义 的 。 两 个 构 型 是 相同 的 ， 如 果 它 们 有 
相同 数量 的 列 (存留 的 循环 ) 和 行 ， 但 是 可 能 有 置换 。Sethi 已 经 证 明 如 果 一 个 置换 系统 满足 
两 个 特性 ， 则 它 有 有 限 Church-Rosser 性 质 ， 这 两 个 特性 称 为 PL 和 P3[245]: 

。P1: 如 果 完 成 任何 变换 (循环 选择 ) 步 曲 ， 则 有 一 步骤 序列 使 得 初始 的 构 型 达到 一 个 界 

限 ， 并 有 一 步骤 序列 使 新 的 构 型 达到 同样 的 界限 。 

。P3: 如 果 从 一 个 初始 的 构 型 完成 两 种 不 同 的 变换 步 最， 则 存在 多 个 变换 序列 使 得 得 到 的 

每 个 构 型 达到 同样 的 界限 。 

特性 P1 在 我 们 的 系统 中 是 平常 的 ， 因 为 我 们 可 以 将 新 的 构 型 作为 界限 ， 这 个 界限 可 以 通 
过 选择 相同 的 循环 而 对 初始 构 型 进行 变换 这 样 一 个 单独 的 步骤 达到 。 特 性 P3 几 乎 是 平常 的 。 
假设 我 们 在 一 种 情况 中 从 构 型 co 开始 ， 选 择 循环 ， 达 到 c;， 而 在 另 一 种 情况 中 选择 /;,， 达 到 c,。 
由 于 2 是 c, 中 的 符合 条 件 的 选择 ， 我 们 现在 可 以 选择 它 ， 达 到 cs。 类 似 地 ， 我 们 可 以 在 <: 的 构 
型 中 选择 4 ， 达 到 cs。 现 在 ， 面 向 cs 的 方向 矩阵 与 co 的 方向 矩阵 不 同 之 处 是 前 者 只 含有 在 列 1 或 
4 的 位 置 含有 一 个 “=” 的 行 ， 且 消除 那些 列 。 但 是 cs 的 方向 矩阵 刚好 含有 相同 的 行 和 列 。 所 
以 ， 这 两 个 构 型 是 相同 的 ， 证 明了 P3 和 有 限 Church-Rosser 性 质 。 

所 以 ， 无 论 如 何 选 择 符合 条 件 的 列 ， 我 们 总 是 达到 同样 的 界限 。 因 此 ， 在 CompleteScalarize 
中 的 选择 顺序 不 能 再 改进 了 ,证 明了 性 质 (1)。 但 由 于 第 一 个 (最 外 层 ) 符合 条 件 的 循环 总 是 
被 选择 ， 所 得 的 标量 化 循环 次 序 是 最 可 能 接近 理想 次 序 的 一 个 , 证 明了 性 质 (2)。 

虽然 ComplereScalarize 提 供 将 一 个 循环 嵌 套 标量 化 ， 其 结果 可 以 称 为 在 特定 的 限制 意义 上 
最 优 的 ， 仍 然 可 以 通过 将 标量 化 循环 和 围绕 原始 向 量 语句 的 循环 进行 交换 ， 并 将 邻近 的 向 量 
语句 对 应 的 标量 化 循环 进行 合并 ， 从 而 提高 寄存 器 的 重用 性 。 这 是 13.6 节 讨论 的 主题 。 
13.4.5 一 个 标量 化 的 例子 


前 面 几 小 节 已 经 讨论 了 一 系列 基于 依赖 的 技术 将 向 量 代码 标量 化 。 在 这 一 小 节 ， 我 们 用 
科学 计算 中 常用 的 一 个 例子 一 一 微分 方程 组 的 有 限 差分 松弛 求解 法 一 一 说 明 这 些 变 换 的 有 效 
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性 。 这 个 算法 的 一 个 Fortran 90 版 本 是 

DOJ=2,N-1 

A(2:N - 1, J) = (A(l:N - 2, J) + AC3:N, J) + & 
A(2:N- 1, 0-1) + AC2:N- 1, J +1))/ 4 

ENDDO 

概略 地 说 ， 这 段 代码 将 每 一 点 的 值 置 为 周围 四 个 点 的 平均 值 。 结 果 ， 在 内 存 的 单元 间 存 
在 大 量 的 冲突 ， 导 致 一 个 集中 的 依赖 图 。 图 13-7 给 出 这 段 代 码 的 依赖 ， 其 中 假设 向 量 操 作 借 
助 一 个 索引 变量 为 i 的 标量 循环 完成 。 





图 13-7 有 限 差分 循环 的 依赖 图 


这 个 例子 包含 一 个 标量 化 依赖 (在 标量 化 循环 6;' 上 的 真 依赖 ) 以 及 一 个 阻止 循环 反 转 的 依 
H (在 标量 化 循环 67+ 上 的 反 依 赖 )。 结 果 ， 一 个 简单 的 编译 器 将 使 用 临时 存储 空间 正确 地 对 
这 个 语句 标量 化 ， 得 到 下 面 的 程序 : 

DOJ=2,N-1 


DO i=2,N-1 
TG - 1) = (AG - 1, J) + AG +1, JI+Ai J-1)+AÜ, J+ 1))/4 
ENDDO ` 
DO i=2,N-1 
A(G, J) = T(i - 1) 
ENDDO 
ENDDO 


对 T 的 引用 需要 2(N - 2)? 次 对 内 存 的 访问 (一半 是 写 人 操作 ， 另 一 半 是 读 取 操 作 )。 
因为 被 标量 化 循环 携带 的 依赖 是 拥有 常数 阐 值 1 的 规则 依赖 ，13.3.2 小 节 中 介绍 的 分 析 揭 


682| 示 这 个 语句 是 输入 预 取 的 一 个 候选 者 。 直 接 使 用 输入 预 取 将 得 到 如 下 的 代码 : 


D0J=2,N-1 
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tA0 = A(1, J) 
DO i=2,N-2 
tAl = (tAO + ACi + 1, J) + ACi, J- 1) + ACi, J +19) / 4 
tA0 = A(i - 1, J) 
ACi, J) = tAl 
ENDDO 
tAl = (tAO + A(N, J) + A(N- 1, J- 1) + A(N-1, 0 +1))/ 4 
A(N - 1, J) = tAl 
ENDDO 
如 果 临 时 变量 被 分 配 到 寄存 器 中 ， 这 个 版 本 同 原 来 的 Fortran 90 程 序 相 比 ， 不 需要 额外 的 
内 存 访问 。 代 价 是 在 执行 这 个 循环 时 需要 分 配 两 个 寄存 器 。 鉴 于 寄存 器 操作 比 内 存 访问 的 代 
价 小 ， 变 换 后 的 代码 在 大 多 数 机 器 上 执行 应 该 好 得 多 。 


13.5 对 向 量 机 器 的 考虑 

当 为 一 台 向 量 机 生成 代码 时 ， 编 译 器 应 当 使 用 不 同 的 标量 化 方法 ， 使 得 在 内 层 循 环 生 成 
向 量 操作 与 目标 机 器 的 向 量 寄存 器 的 大 小 相 匹配 。 通 常 ， 实 现 这 个 处 理 是 简单 直接 的 ， 但 是 
可 能 需要 一 些 额外 的 代码 以 保证 正确 计算 出 向 量 长 度 。 为 了 说 明 其 中 的 问题 ， 我 们 再 次 考察 
一 个 简单 的 标量 化 例子 ， 其 边界 是 未 知 的 : 

AC1:N) = ACL:N) + 1.0 

如 同 我 们 在 13.2 节 中 看 到 的 ， 这 个 循环 的 标量 化 是 简便 的 。 但 是 ， 如 果 生 成 的 操作 的 长 度 
要 与 目标 机 器 的 内 在 向 量 长 度 ( 辟 如 说 64 个 元 素 ) 相 匹 配 ， 我 们 必须 小 心 正 确 地 处 理 N 不 是 64 
的 整 倍数 的 情形 。 我 们 推荐 的 策略 是 以 一 个 短 向 量 操 作 开始 ,这 个 向 量 的 长 度 是 mod (N, 64), 
这 个 策略 可 以 保证 所 有 剩余 的 向 量 片断 可 以 长 度 恰 好 为 64。 


VL = MOD(N, 64) 
IF (VL .GT. 0) ACL:VL) = ACL: VL) + 1.0 
DO I = VL +1, N, 64 

ACI:1 + 63) = A(I:I + 63) + 1.0 
ENDDO 


通过 这 些 修 改 ， 本 节 中 介绍 的 所 有 标量 化 策略 都 可 以 对 向 量 机 扩展 。 683 


13.6 标量 化 后 的 循环 交换 和 合并 

对 于 一 个 单独 的 语句 ， 本 章 中 介绍 的 标量 化 策略 为 其 生成 代码 作 了 很 好 的 工作 。 但 是 ， 
标量 化 通常 生成 很 多 单独 的 循环 。 此 外 ， 由 于 这 些 循环 不 携带 依赖 ， 寄 存 器 的 大 量 重 用 是 不 
常见 的 。 为 了 解决 这 些 问 题 ， 有 必要 对 标量 化 的 结果 使 用 第 8 章 中 介绍 的 循环 交换 、 循 环 合并 、 
循环 展开 和 压 紧 以 及 标量 替换 等 技术 。 

下 面 的 从 一 个 线性 方程 求解 程序 中 抽象 出 来 的 例子 说 明 其 中 的 一 些 问 题 : 


DOK =1,N 
Si M(K, K:N + 1) = M(K, K:N + 1) / M(K, K) 
S: M(K + 1:N, K+ iN+1)= MK+ IN K+1N+1)- 


SPREAD(M(K, K + 1:N+ 1), 1, N-K) * & 
SPREAD(M(K + 1:N, K), 2, N- K +1) 
ENDDO 


我 们 已 经 在 13.3.2 小 节 中 看 到 了 内 部 过 程 SPREAD 。 为 了 正确 地 标量 化 语句 S;， 我 们 注意 到 即使 
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有 一 个 包含 M(K,K) 的 标量 化 依赖 存在 ， 但 它 可 以 通过 输入 预 取 的 退化 形式 被 消除 。 标 量化 循 
环 变 成 
tM = M(K, K) 
pO j=K +1, N 
M(K, j) = M(K, j) / tM 
ENDDO 


语句 $s 是 复杂 的 ， 因 为 它 是 一 个 使 用 SPREAD 内 部 过 程 的 二 维 数组 语句 ， 这 个 内 部 过 程 只 
是 简单 地 将 第 一 个 参数 给 定 的 数组 ， 按 照 第 三 个 参数 指明 的 拷贝 次 数 ， 在 第 二 个 参数 指定 的 
维 上 进行 复制 。 在 上 例 中 应 用 的 作用 是 简单 地 获得 由 SPREAD 的 第 一 个 参数 指明 的 两 个 向 量 的 
外 积 。 这 个 语句 的 简单 标量 化 将 是 
p0j=Kr+lN+1 
dO i=K+1,N 
MCi, j) = MCi, j) - MCK, J) * MCT, K) 
ENDDO 
ENDDO 


但 是 ， 由 于 M(K ,j) 在 右 端的 使 用 ，i- 循 环 携 带 有 一 个 标量 化 依赖 ，M(K ,j ) 错 误 地 使 用 在 
第 一 次 迭代 中 计算 的 M 的 值 。 这 也 可 以 用 输入 预 取 消除 。 

DO j=K+1,N+1 

tMKj = M(K, j) 

DOi=K+1,N 

M(i, J) = MCi, j) - tNMKj * M(i, K) 

ENDDO 

ENDDO 


注意 ， 对 M(i,K) 的 引用 是 没有 问题 的 ， 因 为 j- 循 环 从 选 代 kK+1 开 始 。 现 在 我 们 给 出 完整 的 
标量 化 结果 。 
DOK =1,N 
tM = M(K, K) 
DO j=K, N41 
MCK, j) = M(K, j) / tM 


ENDDO 
D0Oj=K+1,N+1 
tMKj = M(K, j) 


pOi=K+1,N 
MC, j) = Mi，j) - tMKj * M(i, K) 
ENDDO 
ENDDO , 
ENDDO 


由 于 循环 交换 在 这 个 循环 供 套 中 被 排除 ， 首 先 尝试 循环 合并 。 在 循环 对 齐 后 ， 两 个 j- 循 
环 可 以 被 合并 ， 得 到 
DOK=1,N 
tM = MCK, K) 
MCK, K) = tM / tM 
D0 j=K+1,N+1 
M(K, j) = MCK, j) / tM 
tMKj = M(K, j) 
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DOi=K+1,N 
MCi, j) = MCi, j) -~ tMKj * MCi, K) 
ENDDO 
ENDDO 
ENDDO 


下 一 步 ， 对 j- 循 环 使 用 循环 展开 和 压 紧 ， 以 利用 重用 M(i,K) 的 机 会 。 在 这 个 例子 中 ,我 
们 使 用 的 展开 因子 是 2， 但 使 用 更 大 的 因子 也 是 有 可 能 的 。 在 内 层 循环 重 排 和 合并 后 ， 这 个 例 
子 变 成 
DOK=1, N 
tM = M(K, K) 
M(K, K) = tM / tM 
DO j=K+1, N41, 2 
MCK, j) = M(K, j) / tM 
tMKj = M(K, j) 
MK, j + 1) = MK, j + 1) / tM 
tMKjl = M(K, j+ 1) 
D0i=K,N+1 
MCi, j) = MCi, j) - tMKj * MCi, K) 
Mi, j +1) = MCi, j + 1) - tMKjl * M(i, K) 
ENDDO 
ENDDO 
ENDDO 


最 后 ， 我 们 使 用 标量 替换 及 某 种 进一步 的 重 排 ， 得 到 如 下 结果 : 


DOK =1, N 
tM = M(K, K) 
M(K, K) = tM / tM 
DOj=K+1, N41, 2 
tMKj = M(K, j) / tM 
M(K, j) = tMKj 
tMKj1 = M(K, j + 1) / tM 
M(K, j+ 1) = tMKjl 
tMiK = M(i, K) 
DO i=K,N+1 
MCi, j3) = MCi, j) - tMKj * tMik 
Mi, j+ 1) = Mi, j+ 1) — tMKjl * tMiK 
ENDDO 
ENDDO 
ENDDO 


这 个 形式 的 代码 每 5 次 访 存 操作 可 以 完成 4 次 浮 点 运算 。 借 助 另 外 的 循环 展开 和 压 紧 ， 这 段 代 

码 可 以 被 改 为 接近 每 次 访 存 操作 完成 一 次 浮 点 运算 的 水 平 。 

13.7 小 结 
本 章 陈述 了 为 Fortran 90 的 数组 赋值 生成 良好 代码 的 问题 。 这 个 处 理 过 程 的 基本 策略 是 将 

数组 赋值 转换 为 可 以 正确 实现 原来 语句 语义 的 串 行 循 环 嵌 套 。 如 果 这 个 处 理 过 程 的 目标 不 是 

为 了 避免 使 用 大 的 由 编译 器 生成 的 临时 数组 的 话 ， 这 种 处 理 是 容易 的 。 686 
本 章 提供 一 系列 不 同 的 用 于 减少 需要 的 临时 存储 空间 数量 的 策略 ， 包 括 循环 反 转 ， 输 入 

预 取 和 循环 分 裂 。 对 于 多 维 数组 语句 ， 精 心 选择 正确 的 循环 次 序 也 可 能 用 于 避免 临时 存储 的 
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生成 。 

注意 这 些 技术 对 在 向 量 机 上 高 效 实现 Fortran 90 也 是 需要 的 ， 这 一 点 非常 重要 。 在 向 量 机 
上 ， 最 内 层 循环 应 该 被 按照 内 在 的 向 量 操作 的 长 度 进行 分 段 。 

陈述 的 第 二 个 问题 是 在 生成 标量 化 代码 后 ， 如 何 提高 它 的 性 能 。 已 知 如 果 能 够 明智 的 使 
用 第 8 章 中 给 出 的 标量 寄存 器 分 配 技术 ， 是 可 能 生成 性 能 最 接近 于 手工 优化 的 代码 的 。 


13.8 实例 研究 

无 论 PFC 或 是 Ardent Titan 都 没有 实现 过 Fortran 90， 所 以 这 里 介绍 的 标量 化 策略 不 是 必需 
的 。 最 近 ，Yuan Zhao 在 Rice 大 学 的 dHPF 编 译 器 的 环境 下 实现 了 这 些 策略 。 除 本 章 介绍 的 这 些 
策略 之 外 ，Zhao 的 实现 包括 了 一 个 主要 的 改进 一 一 在 实现 中 综合 使 用 了 对 齐 和 临时 数组 的 韦 
缩 技术 ， 进 一 步 减少 由 于 Fortran 90 生 成 的 循环 中 需要 的 临时 数组 空间 的 数量 。 虽 然 这 好 像 只 
是 较 小 的 改进 ， 但 是 它 深 刻 影 响 了 结果 程序 中 的 高 速 缓存 行为 。 对 于 一 个 用 9 点 模板 写 的 一 个 
HPF 程 序 的 SOR 例子， 在 一 个 单独 的 处 理 器 的 SGI 机 器 上 使 用 本 机 Fortran 90 编 译 器 得 到 的 代 
BL, Zhao 的 对 齐 策 略 在 代码 性 能 上 得 到 整数 倍 的 加 速 比 。 由 这 项 工作 产生 的 技术 报告 也 指出 ， 
在 某 些 情形 中 ， 为 了 减少 从 Fortran 90 语 句 生成 标量 化 循环 时 需要 的 临时 存储 空间 ， 也 可 以 使 
用 循环 倾斜 技术 [287]。 


13.9 历史 评述 与 参考 文献 

Wolfe 引 入 了 标量 化 的 概念 ， 并 说 明了 简单 的 算法 (图 13-2) 总 是 可 以 应 用 的 [2791。 他 发 
现在 循环 合并 是 合法 的 场合 下 ， 循 环 合并 可 以 用 于 消除 临时 存储 空间 的 使 用 。 他 还 发 现在 循 
环 中 将 循环 不 变 向 量 保留 在 寄存 器 中 的 重要 性 ， 例 如 矩阵 乘法 中 的 结果 向 量 。 

本 章 中 的 标量 化 算法 取 自 Allen 和 Kennedy 的 一 篇 文章 [22] 以 及 Allen 的 学 位 论文 [16]。 最 近 ， 
Zhao 和 Kennedy 利 用 对 齐 和 循环 倾斜 变换 技术 对 这 些 策略 作 了 改进 [287]。 

Sarkar[241] 发 现在 并 行 化 和 使 标量 化 中 的 临时 变量 空间 最 小 化 间 需 要 一 个 权衡 。 他 给 出 
一 个 算法 ， 将 标量 化 和 并 行 化 结合 起 来 以 求 得 到 两 方面 的 好 处 。 

Roth 在 其 学 位 论文 和 相关 的 文章 中 [238，179，178，180] 提 出 了 一 种 编译 策略 ， 在 整个 
数组 的 层次 上 分 析 Fortran 90 程 序 并 运用 各 种 初等 变换 ， 减 少 在 特定 的 并 行 计算 机 上 实现 这 个 
策略 的 代价 。 对 于 一 个 用 CM Fortran 写 的 面向 Thinking Machines CM-5 的 模板 程序 ， 其 中 包含 
了 许多 对 同一 个 数组 的 不 同 的 移 位 操作 ，Roth 的 策略 可 以 非常 有 效 地 减少 程序 中 通信 重 。 


习题 

13.1 什么 是 标量 化 失效 ? 一 个 标量 化 失效 总 是 可 以 消除 的 吗 ? 

13.2 证 明 循 环 反 转 技术 能 够 消除 一 个 循环 携带 的 标量 化 失效 ， 当 且 仅 当 这 个 循环 不 携带 
反 依 赖 。 为 什么 这 个 命题 中 没有 提 及 输出 依赖 ?输出 依赖 在 标量 化 中 是 一 个 问题 吗 ? 

13.3 证 明 下 述 命题 : 任何 一 个 标量 化 循环 ， 如 果 其 中 的 所 有 真 依赖 都 具有 相同 的 常数 距 
离 益 值 T， 且 所 有 的 反 依 赖 的 益 值 可 以 被 T 整 除 ， 则 这 个 循环 可 以 用 输入 预 取 和 循环 分 裂 技 术 
进行 变换 ， 从 而 消除 所 有 的 标量 化 依赖 。 

13.4 将 数组 语法 与 第 1 章 中 介绍 的 PARALLEL 00 循环 类 型 作 比 较 。 它 们 有 精确 一 致 的 含义 
吗 ?也 就 是 说 ， 一 个 符合 数组 语法 的 语句 总 是 能 够 被 翻译 为 一 个 PARALLEL D0 循环 ， 而 一 个 单 
语 名 的 PARALLEL D0 循 环 总 是 能 够 被 翻译 为 数组 语法 语句 吗 ? 
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14.1 5/5 

在 20 世 纪 80 年 代 末 ， 高 端 并 行 性 发 生 了 变化 ， 由 基于 总 线 的 共享 存储 系统 (这 类 系统 在 
今天 称 为 对 称 多 处 理 机 (SMP)) 转变 为 可 扩展 的 计算 机 系统 ， 这 类 系统 的 存储 器 被 分 开 ， 同 
单独 的 处 理 器 组 装 在 一 起 。 早 期 的 这 类 系统 的 典型 设计 是 超 立 方 体系 统 ， 它 是 由 Caltech 公 司 
提出 ， 并 由 Intel 和 其 他 公司 推广 普及 。 后 来 ， 这 类 系统 的 设计 虽然 采用 了 不 同 的 网 络 体系 结 
构 ， 但 仍然 保持 分 布 式 存 储 的 设计 。 这 类 机 器 被 称 为 分 布 式 存 储 多 处 理 机 。 

由 于 早期 分 布 式 存储 系统 中 的 单个 处 理 器 采用 32 位 寻 址 方式 ， 单 个 处 理 器 无 法 访问 一 个 
庞大 配置 的 诊 合 存储 器 的 每 个 字 。 所 以 ， 大 部 分 这 类 机 器 采用 了 某 种 形式 的 “消息 传递 ”在 
处 理 器 间 实 现 数据 通信 。 当 一 个 处 理 器 需要 位 于 其 他 处 理 器 存储 中 的 一 组 数据 时 ， 数 据 的 拥 
有 者 将 显 式 地 向 需要 这 些 数据 的 处 理 器 发 送 数据 ， 而 使 用 数据 的 处 理 器 执行 接收 操作 ， 取 出 
这 些 数 据 。 这 类 发 送 和 接收 的 操作 在 程序 中 通常 是 以 Fortran 或 C 语 言 系统 库 的 调用 形式 实现 。 
这 种 库 的 缺点 是 每 一 个 库 只 能 针对 具体 的 机 器 实现 ， 使 得 代码 难于 在 系统 间 进 行 移植 。 消 息 
传递 接口 (MPI) 的 发 布 解决 了 这 个 问题 。MPI 是 一 个 可 以 被 高 级 语言 调用 的 实现 消息 传递 的 
标准 接口 。 今 天 ，MPI 被 多 数 面向 可 扩展 并 行 机 的 程序 使 用 。 

然而 ，MPI 和 它 的 同类 机 制 存在 一 个 严重 的 缺点 一 一 它们 难以 被 掌握 和 使 用 。 为 编写 一 个 
MPI 程 序 ， 用 户 通常 必须 将 一 个 应 用 程序 重 写 为 单程 序 流 多 数据 流 (SPMD) 的 形式 。 为 了 说 


明 这 个 问题 ， 我 们 首先 以 一 个 简单 的 求 和 归 约 计算 为 例 ， 以 Fortran 90 中 的 Fortran 77 子 方言 书 


写 的 程序 如 下 : 

PROGRAM SUM 
REAL A(10000) 
READ (9) A 
SUM = 0.0 
DO I = 1, 10000 

SUM = SUM + A(T) 

ENDDO 
PRINT SUM 

END 


为 了 在 一 个 并 行 的 消息 传递 机 器 上 执行 这 个 计算 ,我们 必须 将 这 个 程序 转换 为 SPMD 形 式 ， 
在 这 种 形式 的 程序 中 ， 每 个 处 理 器 在 数据 空间 的 不 同 子 集 上 执行 完全 相同 的 程序 。 一 个 处 理 
器 通过 询问 处 理 器 专用 的 环境 变量 来 决定 其 在 哪些 数据 上 进行 操作 。 下 面 是 一 个 简单 而 效率 
低下 的 SPMD 程 序 : 读 入 一 系列 数据 项 ， 将 应 存储 在 不 同 的 处 理 器 中 的 数据 项 子 集 发 送出 去 ， 
计算 和 ， 并 打印 结果 。 

PROGRAM SUM 


REAL A(100), BUFF(100) 
IF (PID == 0) THEN 
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DO IP = 0, 99 
READ (9) BUFF(1:100) 
IF (IP == 0) A(1:100) = BUFF(1:100) 
ELSE SEND(IP, BUFF, 100) ! 100 words to Proc I 
ENDDO 
ELSE 
RECV(0, A, 100) ! 100 words from proc 0 into A 
ENDIF 
SUM = 0.0 
DO I= 1, 100 
SUM = SUM + A(I) 
ENDDO 
IF (PID == 0) SEND(1, SUM, 1) 
IF (PID > 0) RECV(PID-1, T, 1) 
SUM = SUM + T 
IF (PID < 99) SEND(PID+1, SUM, 1) 
ELSE SEND(0, SUM, 1) 
ENDIF 
IF (PID == 0) THEN; RECV(99, SUM, 1); PRINT SUM; ENDIF 
END 


虽然 这 个 程序 在 计算 100 个 元 素 的 局 部 部 分 和 时 实现 了 重 又 计算 , 在 由 部 分 和 计算 总 和 时 ， 
计算 依旧 是 串 行 的 。 所 以 ， 这 个 程序 并 未 获得 最 全 面 的 并 行 性 。 但 是 ， 这 个 程序 显示 了 利用 
消息 传递 机 制 编写 SPMD 程 序 的 某 些 困难 。 在 这 个 程序 中 ， 程 序 员 必须 管理 数据 的 布局 、 和 移动 
和 同步 ， 这 是 它 与 Fortran 90 程 序 的 主要 不 同 之 处 。 为 了 完成 这 些 工作 ， 程 序 员 必 须 手 工 对 代 
码 进行 循环 分 段 ， 产 生 SPMD 代 码 。 

在 上 世纪 90 年 代 初 ， 经 过 一 个 非 正 式 的 标准 化 过 程 推出 的 高 性 能 Fortran (HPF) 是 对 
Fortran 90 的 扩充 。 推 出 它 的 原意 是 将 数据 管理 的 大 部 分 细节 自动 化 。 在 HPF 中 ， 程 序 员 最 主 
要 的 智力 工作 是 决定 数据 以 何 种 布局 存放 在 并 行 机 器 的 处 理 器 存储 系统 中 。HPF 有 3 种 制导 用 
于 实现 上 述 功能 ， 制 导 以 注释 的 形式 出 现 : 

Mm TEMPLATE RIS: 提供 一 种 机 制 ， 使 得 用 户 可 以 声明 一 个 细 粒 度 的 虚拟 处 理 器 组 ， 表 示 

对 解决 问题 可 能 有 用 的 最 大 并 行 性 。 对 于 上 面 的 求 和 问题 ， 下 述 制导 满足 需求 : 
!HPF$ TEMPLATE T(10000) 

E ALIGNS: 提供 一 种 将 数组 与 一 个 TEMPLATE 对 齐 或 数组 相互 对 章 的 方式 。 对 于 上 

面 的 求 和 问题 ， 可 以 用 
!HPF$ ALIGN A(:) WITH T(:) 

m DISTRIBUTE Hise: 描述 如 何 将 一 个 虚拟 处 理 器 组 或 一 个 数据 数组 分 布 到 一 个 实际 的 并 
行 机 器 的 各 个 存储 器 中 ， 它 是 与 机 器 无 关 的 。 例 如 ， 在 上 面 例子 将 数据 在 100 个 处 理 器 
闻 进 行 分 布 。 在 HPF 中 这 可 以 用 

JHPF$ DISTRIBUTE T(BLOCK) 
实现 。 
另 一 种 方案 是 上 述 的 三 个 制导 也 可 以 用 如 下 的 制导 代替 : 
!HPF$ DISTRIBUTE A(BLOCK) 
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这 个 制导 直接 将 一 个 数据 数组 分 布 到 实际 的 处 理 器 上 。 
利用 这 些 制 导 ， 归 约 求 和 程序 可 以 写成 如 下 形式 : 、 
PROGRAM SUM 

REAL A(10000) 
IHPF$ DISTRIBUTE A(BLOCK) 
READ (9) A 
SUM = 0.0 
DO I = 1, 10000 
SUM = SUM + A(T) 
ENDDO 
PRINT SUM 
END 


此 程序 明显 比 消息 传递 程序 简单 ， 但 它 具 有 弱点 一 一 编译 器 必须 作 大 量 的 工作 才能 产生 比较 
有 效 的 程序 。 特 别 地 ， 它 必须 识别 出 这 个 题目 的 主要 计算 是 求 和 归 约 ， 并 将 SUM 的 值 在 各 个 处 
理 器 上 复制 。 最 后 它 必 须 生成 最 终 并 行 求 和 的 代码 。 

除数 据 分 布 制导 外 ，HPF 还 有 一 些 用 于 辅助 并 行 性 识别 的 特殊 制导 。 制 导 

!HPF$ INDEPENDENT 

指明 后 面 紧 跟 的 一 个 循环 可 以 被 并 行 化 ， 而 不 必 考 虑 通信 或 同步 。 虽 然 许 多 编译 器 可 以 自动 
识别 并 行 性 ， 但 这 个 制导 可 以 确保 接受 这 个 程序 的 各 个 编译 器 将 并 行 执行 这 个 循环 。 

在 前 面 的 例子 中 ， 由 于 是 求 和 归 约 计算 ， 因 此 这 个 制导 是 不 适用 的 。 然 而 ， 归 约 运算 在 
科学 计算 程序 中 是 常用 的 ， 因 此 HPF 人 允许 用 一 个 特别 的 限定 词 说 明 一 个 特定 变量 是 一 个 归 约 
求 和 的 目标 : 
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IHPF$ INDEPENDENT, REDUCTION( SUM) 


利用 这 个 制导 ， 上 面 的 例子 可 以 写成 如 下 的 HPF 程 序 : 
PROGRAM SUM 
REAL A(10000) 
!HPF$ DISTRIBUTE A(BLOCK) 
READ (9) A 
SUM = 0.0 
!HPF$ INDEPENDENT, REDUCTION(SUM) 
DO 1 = 1, 10000 
SUM = SUM + A(T) 
ENDDO 
PRINT SUM 
END 


编译 器 可 以 很 容易 处 理 这 个 版 本 的 程序 ， 生 成 一 个 有 效 的 消息 传递 程序 。 
作为 最 后 的 一 个 例子 , 我 们 给 出 一 个 简单 的 HPF 代 码 段 ， 它 的 作用 是 模仿 多 网 格 处 理 方法 。 

在 这 个 例子 中 ， 用 TEMPLATE 实 现 粗 粒度 网 格 APRIME 和 细 粒 度 网 格 A 的 对 齐 。INDEPENDENT 制 

导 用 于 保证 编译 器 之 间 的 可 移植 性 ， 编 译 器 不 识别 计算 循环 的 并 行 性 。 [692] 
REAL A(1023, 1023), B(1023, 1023), APRIME(511, 511) 
!HPF$ TEMPLATE T(1024, 1024) 


!HPF$ ALIGN ACI, J) WITH T(I, J) 
1HPF$ ALIGN B(I, J). WITH T(I, J) 
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!HPF$ ALIGN APRIME(I，J) WITH T(2 * I - 1, 2 * J - 1) 

'HPF$ DISTRIBUTE T(BLOCK, BLOCK) 

!HPF$ INDEPENDENT, NEW(I) 

DO J = 2, 1022 ! Multigrid Smoothing (Red-Black ) 

'HPF$ INDEPENDENT 
DO I = MOD(J, 2), 1022, 2 

ACI, J) = 0.25 * (A(T + 1, J) + ACI +1, J) + ACE, J- 1) & + ACI, J + 1)) + BCI, J) 
ENDDO 

ENDDO 

'HPF$ INDEPENDENT, NEW(I) 

DO J = 2, 510 ! Multigrid Restriction 

'HPF$ INDEPENDENT 

DO I = 2, 510 

APRIME(I, J) = 0.05 * (A(2 * 1-2, 2% 09-2) +8 

4*AC2* 1-2, 2*90-1) +A(2* 1-2, 24d) +8 
4*A(2 * I-11, 2% 9-2) +4%* AC2* T-1,2* 5d) +& 
A(2 * 1, 2* J~2)+4* A(2* 1, 2% 0-1) + & 
A(2 * I, 2 * J)) 

ENDDO 

ENDDO 

! Multigrid convergence test 

ERR = MAXVAL(ABS(A(:, :) - BC:, :))) 

在 这 个 例子 中 ， 外 层 循环 的 INDEPENDENT 制 导 中 的 限定 词 NENCI)， 用 于 保证 内 层 循 环 的 归 
纳 变量 I 在 执行 外 层 循环 不 同 迭 代 的 每 一 组 处 理 器 上 被 复制 。 它 的 作用 大 致 同 其 他 并 行 语言 中 
的 PRIVATE 制 导 等 价 。 

在 本 章 的 余下 部 分 ， 我 们 将 介绍 一 些 针对 本 书 前 面 介绍 的 机 器 的 编译 策略 ， 使 得 HPF 程 
序 编译 后 获得 相同 有 效 的 消息 传递 程序 。 此 项 工作 的 一 个 目标 是 获得 接近 于 最 好 的 手写 消息 


传递 程序 的 性 能 。 


14.2 HPF 编 译 器 概览 

在 这 一 节 中 ， 我 们 将 讨论 HPF 编 话 器 的 典型 结构 ， 并 用 一 个 简单 的 例子 说 明 不 同 的 编译 
阶段 。 通 常 ，HPF 编 译 的 目标 程序 是 含有 实现 通信 的 MPI 调 用 的 Fortran 77 或 Fortran 90 程 序 。 
考虑 到 本 章 的 阐述 目的 ， 我 们 把 目标 语言 定 为 Fortran 90 语 言 的 Fortran 77 子 方言 再 加 上 一 些 简 
单 的 通信 调用 ， 这 些 调 用 我 们 将 陆续 介绍 。 我 们 将 假设 所 有 的 数组 赋值 语句 已 经 利用 第 13 章 
中 介绍 的 方法 变换 为 串 行 循环 (标量 化 )。 考 虑 到 这 种 处 理 的 目的 ， 我 们 还 假设 在 计算 中 用 到 
的 处 理 器 的 个 数 是 固定 的 ， 并 且 是 在 编译 时 刻 已 知 的 ， 当 然 这 个 假设 是 可 以 轻易 地 放宽 的 。 

在 绝 大 多 数 HPF 的 实现 中 计算 划分 的 原则 是 拥有 者 计算 规则 ， 这 条 原则 指出 ， 每 个 赋值 
语句 的 左 端的 拥有 者 必须 计算 右 端的 表达 式 。 虽然 这 条 原则 在 标准 中 是 隐 含 的 ， 但 并 不 是 必 
需 的 。 事 实 上 ， 编 译 器 可 以 自由 地 根据 需要 以 任意 的 方式 放宽 拥有 者 计算 的 规则 ， 但 是 ， 编 
译 器 应 该 在 为 了 获得 明显 的 性 能 提高 时 才 放 宽 上 述 规则 ， 因 为 用 户 希 望 根据 拥有 者 计算 规则 
分 布 计算 ， 所 以 他 /她 可 能 已 经 有 了 以 此 分 布 数据 的 考虑 。 在 本 章 的 后 面 ， 我 们 将 探讨 放宽 这 
条 规则 的 优化 。 

HPF 编 译 过 程 包括 以 下 几 个 阶段 : 

(1) RADH: 当 判 断 在 最 终 的 程序 中 是 否 需要 加 入 通信 以 及 在 何 地 加 入 通信 和 时， 需要 
建立 完全 的 依赖 集 。 
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(2) 分 布 分 析 : 数据 分 布 分 析 的 目的 是 决定 在 程序 中 的 每 一 点 对 每 一 个 数据 结构 采用 何 
种 数据 分 布 方式 。 虽 然 在 数据 达到 程序 中 的 一 个 给 定点 ， 同 一 个 数据 结构 可 能 有 多 种 分 布 方 
式 ， 但 是 这 是 不 希望 的 ， 所 以 我 们 在 此 不 讨论 这 种 情况 。 

(3) 划分 : 一 旦 程序 中 任何 部 分 的 分 布 信息 已 知 ， 计 算 划分 就 确定 了 。 也 就 是 说 ， 我 们 
必须 对 程序 中 的 每 个 语句 实例 确定 一 个 执行 它 的 处 理 器 ， 其 中 一 个 语句 实例 是 通过 控制 该 语 
句 执行 的 循环 索引 变量 对 其 参数 化 的 。 在 我 们 此 处 讨论 的 编译 器 中 ， 这 个 工作 相当 于 对 每 条 
语句 用 ON HOME 制导 注释 ， 这 条 制导 将 在 下 面 例子 的 改进 版 中 描述 。 

(4) 通信 分 析 和 定位 : 确定 需要 通信 的 位 置 是 必需 的 。 这 需要 检查 程序 中 存在 于 语句 间 
的 依赖 和 语 旬 内 的 依赖 。 

(5) 程序 优化 : 下 一 步 ， 编 译 器 实施 程序 变换 以 提高 所 获得 程序 的 性 能 。 在 很 大 程度 上 ， 
这 意味 着 构造 这 样 的 通信 和 同步 ， 用 最 小 的 代价 获得 最 大 的 并 行 性 。 

(6) 代码 生成 : 生成 一 个 SPMD 程 序 通常 包括 三 个 任务 。 首 先 ， 实 际 的 SPMD 程 序 的 代码 
必须 由 一 个 循环 分 段 和 增加 条 件 掩 码 的 过 程 生成 。 其 次 ， 通 信 必 须 最 后 定案 。 最 后 ， 必 须 完 
成 每 个 处 理 器 上 管理 所 需 存 储 的 程序 变换 。 

我 们 用 一 个 模拟 松弛 计算 的 简单 HPF 代 码 段 为 例 介绍 上 述 步骤 。 在 这 段 代码 中 出 去 了 输 
入 -输出 和 子 程序 调用 ， 这 样 可 以 将 注意 力 集中 到 最 重要 的 问题 上 。 

REAL A(10000), B(10000) 
!HPF$ DISTRIBUTE A(BLOCK), B(BLOCK) 
DO J = 1, 10000 
DO I = 2, 10000 
Sı A(I)=B(I-1)+C 
ENDDO 
DO I = 1, 10000 
S B(I) = ACI) 
ENDDO 
ENDDO 

图 14-1 给 出 这 个 例子 中 的 依赖 。 由 于 在 每 个 内 层 循环 中 用 5 
到 不 同 的 数组 ， 所 以 每 个 循环 都 没有 携带 依赖 。 由 于 语句 5 的 (\ 
ka EBEE SATR AE EER h EAA EA, Ar 
以 存在 一 个 从 $: 到 S: 的 循环 无 关 的 真 依赖 。 同 样 ， 还 存在 一 个 Q 
从 5z 到 $1 的 由 外 层 循 环 携带 的 真 依赖 。 从 语句 5; 到 其 自身 以 及 从 
语句 S: 到 其 自身 各 存在 一 个 外 层 循环 携带 的 输出 依赖 ， 从 语句 ör 57 
$1 到 $s 以 及 从 5 到 51 各 存在 一 个 由 外 层 循环 携带 的 反 依赖 。 我 们 
很 快 就 会 看 到 这 些 依赖 对 通信 分 析 的 作用 。 但 是 ， 重 要 的 一 点 
是 关于 I 的 循环 不 携带 依赖 。 Cs) 

这 个 例子 的 分 布 分 析 是 简单 的 一 一 在 这 个 代码 段 中 的 任何 0) 
位 置 ， 数 组 A 和 数组 8 都 是 块 分 布 方式 。 这 表明 如 果 遵 守 拥 有 者 3° 
计算 的 原则 ， 在 整个 数组 上 进行 迭代 的 任何 循环 可 以 平均 分 布 
到 所 有 的 处 理 器 上 。 基 于 这 样 的 认识 ， 理 想 的 划分 显然 是 分 布 
I- 循 环 的 计算 。 

通信 分 析 应 确定 通信 插入 的 位 置 。 在 开始 ， 通 信 被 放 在 需要 通信 的 数据 访问 附近 。 随 后 ， 


图 14-1 例子 中 的 依赖 
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通信 将 根据 依赖 关系 进行 移动 。 通 过 对 循环 中 不 同 引用 数据 足迹 的 检测 可 以 确定 对 通信 的 需 
求 。 例 如 在 包围 语句 $1 的 循环 中 ， 每 个 处 理 器 将 对 A(L:L+99) 计 算 其 结果 ， 此 处 A(L:L+99) 是 
该 处 理 器 拥有 的 数组 A 中 的 位 置 范 围 (在 处 理 器 0 上 ，A(1) 的 结果 没有 计算 )。 另 一 方面 ， 在 赋 
值 语句 右 端 将 访问 B(L-1:L+98)。 注 意 对 B(L-1) 的 引用 ， 执 行 语句 的 处 理 器 不 是 这 个 数组 元 
素 的 拥有 者 。 所 以 ， 这 是 一 个 非 本 地 处 理 器 引用 。 我 们 把 得 到 上 述 结论 的 这 种 处 理 称 为 数据 
足迹 分 析 (footprint analysis)。 通 过 类 似 的 数据 足迹 分 析 ， 我 们 可 以 看 到 包围 语 甸 5; 的 循环 不 
含有 非 本 地 处 理 器 引用 。 当 这 个 分 析 完 成 时 ， 我 们 看 到 只 有 第 一 个 1- 循环 的 一 次 迭代 需要 通 
信 。 如 果 我 们 现在 实施 循环 分 段 ， 则 结果 的 代码 段 如 下 
! Shadow location B(0) receives data 
REAL A(1, 100), B(0:100) 
'HPF$ DISTRIBUTE AC(BLOCK), B(BLOCK) 
DO J = 1, 10000 
L IF (PID /= 99) SEND(PID + 1, B(100), 1) 
I, IF (PID /= 0) THEN 
RECV(PID - 1, B(0), 1) 
A(1) = B(O) +C 


ENDIF 
DO I = 2, 100 
Si ACI) = BCT -1)+C 
ENDDO 
DO I = 1, 100 
Sz B(I) = A(T) 
ENDDO 
ENDDO 


注意 ， 在 每 个 循环 中 的 数据 接收 条 件 已 经 和 对 接收 数据 的 使 用 合并 在 一 起 。 虽 然 这 只 是 
一 个 较 小 的 优化 ， 但 是 仍然 可 以 使 我 们 从 条 件 结构 中 得 到 双 倍 的 好 处 : 不 仅 是 避免 等 待 永远 
不 会 发 送 的 数据 ， 而 且 可 以 避免 在 处 理 器 0 上 执行 第 一 次 迭代 。 

这 个 例子 中 的 另 一 个 有 意思 的 特性 是 在 每 个 处 理 器 上 对 额外 分 配 的 存储 的 使 用 ， 即 本 例 
中 的 B(0) 单 元 ， 这 个 单元 用 于 存放 从 相 邻 处 理 器 通信 得 到 的 数据 。 这 些 额外 分 配 的 单元 通常 
统称 为 重 登 区 或 阴影 区 。 

然后 ， 编 译 器 必须 确定 通信 的 正确 插入 位 置 。 显 然 ， 我 们 需要 在 使 用 数据 前 接收 这 些 数 
据 ， 但 是 我 们 提前 多 长 时 间 发 送 这 些 数据 呢 ? 例如 ， 我 们 可 以 在 J- 循 环 外 发 送 这 些 数 据 吗 ? 
本 例 中 这 种 做 法 是 不 可 以 的 ， 因 为 关于 数组 A 的 值 的 依赖 是 由 J- 循 环 携带 的 。 由 于 在 本 循环 中 
计算 的 值 在 同一 个 循环 的 后 面 使 用 ， 我 们 必须 使 通信 维持 在 此 循环 之 中 。 我 们 可 以 试图 移动 
Ii 中 的 发 送 ， 使 它 与 J- 循 环 上 一 次 迭代 最 后 计算 B(100) 的 值 靠近 。 然 而 ， 如 果 我 们 要 实现 上 
述 移动 ， 就 必须 插入 特殊 的 代码 保证 第 一 个 迭代 接收 到 所 需 的 数据 。 由 于 这 个 复杂 的 变换 不 
能 明显 提高 整体 性 能 ， 我 们 保持 原来 的 循环 形式 。 

下 一步 又 是 优化 。 通 信 优 化 采用 三 种 通用 的 策略 : 

(1) 将 在 同一 对 处 理 器 间 发 送 的 数据 又 集成 一 个 消息 包 ， 从 而 减少 消息 发 送 启动 的 代价 。 
这 种 优化 对 本 例 的 程序 没有 太 大 的 意义 ， 因 为 没有 大 量 数据 可 以 聚集 -一 基本 上 ， 每 一 步 我 
们 在 一 对 处 理 器 间 的 每 个 方向 上 发 送 一 个 字 。 

(2) 通信 和 计算 的 重 登 。 随 后 我 们 会 看 到 ， 这 种 优化 对 于 本 例 是 非常 有 效 的 。 

(3) 特殊 通信 模式 的 识别 。 特 殊 通 信 模 式 可 以 替换 为 快速 的 系统 调用 以 实现 集合 通信 。 
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这 种 优化 的 一 个 主要 例子 是 求 和 归 约 的 识别 ， 大 多 数 机 器 上 都 有 实现 求 和 归 约 的 快速 系统 例 
程 。 另 一 个 例子 是 广播 通信 。 

对 于 这 个 例子 ,最 有 效 的 优化 是 通信 和 计算 的 重叠 。 如 果 仔 细 观 察 这 段 代码 ， 可 以 发 现 
除了 一 次 迭代 外 ， 包 上 力 语 句 $1 的 循环 的 所 有 其 他 迭代 都 纯粹 是 局 部 的 一 一 根本 不 需要 通信 。 如 
果 将 这 段 代码 放 在 数据 的 一 次 发 送 和 一 次 接收 之 间 ， 则 可 以 获得 显著 的 通信 和 计算 重 登 。 将 
数据 接收 和 计算 的 代码 (在 I: 的 条 件 语 句 中 的 代码 ) 移动 到 包围 S 的 循环 的 后 面 的 某 个 位 置 即 
可 实现 上 述 功 能 : 

! Shadow location B(0) receives data 
REAL A(1, 100), B(0:100) 


'HPF$ DISTRIBUTE A(BLOCK), B(BLOCK) 
DO J = 1, 10000 


L IF (PID /= 99) SEND(PID + 1, B(100), 1) 
DO I = 2, 100 

Sı ACI) =B(I-1)+C 
ENDDO 

I, IF (PID /= 0) THEN 


RECV (PID - 1, B(0), 1) 
A(1) = B(0) +C 
ENDIF 
DO 1 = 1, 100 
Sz B(I) = A(I) 
ENDDO 
ENDDO 
至 此 这 个 循环 有 很 好 的 形状 ， 由 此 生成 的 最 终 版 本 的 SPMD 代 码 与 上 述 代码 很 相像 。 在 生成 
SPMD 代 码 时 ， 编 译 器 必须 对 分 布 的 数据 区 进行 分 段 ， 使 得 数据 区 的 大 小 适合 于 一 个 处 理 器 和 
附加 的 某 个 重 双 区 或 阴影 区 存储 (如 上 述 的 B(0))。 
在 后 面 几 个 小 节 中 ， 我 们 将 介绍 实现 上 述 某 些 优化 和 在 本 例 中 没有 显现 的 优化 算法 。 如 
果 完 整地 讨论 HPF 编 译 技 术 ， 则 需要 一 本 书 来 陈述 ， 所 以 我 们 不 会 讨论 全 部 的 HPF 编 译 技术 。 
我 们 的 处 理 方式 是 力求 告诉 读者 如 何 将 本 书 中 给 出 的 概念 和 原则 应 用 到 对 HPF 语 言 的 处 理 中 。 


14.3 基本 循环 的 编译 技术 

本 节 我 们 将 详细 讨论 实现 HPF 中 循环 由 套 的 方法 。 概 括 而 言 ， 编 译 策略 可 以 看 成 是 先进 
行 初 步 分析 ， 然 后 对 整个 循环 优 套 进行 检查 ， 并 将 其 变换 为 等 价 的 SPMD 循 环 伐 套 格式 ， 其 中 
要 在 适当 的 位 置 插入 通信 。 
14.3.1 分 布 信息 的 传播 和 分 析 

第 一 步 是 确定 在 程序 中 的 一 个 特定 点 ， 一 个 给 定 的 数组 可 能 具有 何 种 分 布 ， 以 便 生成 访 
问 这 个 数组 的 代码 。 由 于 以 下 两 个 原因 这 不 是 一 个 简单 问题 : 

(1) HPF 支 持 动态 重 分 布 ， 这 是 一 个 有 效 的 语言 扩展 。 确 切 地 说 ， 用 户 可 以 在 到 达 特 定 
点 的 不 同 控制 流 路 径 上 揪 入 REALIGN 和 REDISTRIBUTE 语 句 〈 这 两 个 语句 都 是 可 执行 的 )。 

(2) HPF 提 供 一 种 机 制 ， 使 得 一 个 子 程序 的 形式 参数 可 以 从 调用 程序 继承 分 布 模式 。 如 
果 在 不 同 的 调用 点 将 不 同 的 分 布 模式 传递 给 同一 个 形式 参数 ， 则 同一 个 子 程序 可 能 应 用 多 种 
分 布 信 息 。 
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显然 ， 这 类 二 义 性 最 好 予以 避免 ， 因 为 在 代码 中 它 是 不 可 能 被 消除 的 ， 构 造 代 码 的 惟一 
途径 是 通过 对 运行 时 系统 的 查询 得 到 精确 的 分 布 信息 ， 但 这 样 会 严重 增加 代码 或 存储 空间 的 
开销 ， 或 同时 增加 两 方面 的 开销 。 然 而 ， 首 先 必 须 确 定 是 否 存在 任何 二 义 性 。 

在 局 部 范围 内 ， 通 过 解 一 个 称 为 到 达 分 解 的 数据 流 分 析 问 题 可 以 实现 分 布 分 析 ， 这 与 4.4 
节 中 讨论 的 到 达 定 值 问题 直接 类 同 。 事 实 上 ， 当 把 任何 REALIGN 和 REDISTRIBUTE 语 句 (或 语 
句 对 ) 作为 一 个 定 值 时 ， 到 达 分 解 问 题 就 是 一 个 精确 的 到 达 定 值 问题 。 此 分 析 也 要 为 程序 的 
开始 点 设 定 初始 分 解 。 当 跨越 过 程 时 ， 必 须 解 决 过 程 间 版 本 的 到 达 分 解 问题 。 这 是 一 个 流 敏 
感 问题 ， 类 似 于 一 个 简单 的 常数 传播 的 形式 。 这 个 问题 将 在 14.4.7 小 节 中 讨论 。 对 于 那些 有 多 
个 数据 分 布 模式 到 达 一 个 程序 点 的 例子 ， 可 以 基于 运行 时 测试 数据 分 布 信息 的 方法 ， 实 现 运 
行 时 刻 的 代码 复制 ， 从 而 消除 数据 分 布 信息 的 二 义 性 。. 由 不 同 的 调用 链 导致 的 二 义 性 通常 可 
以 通过 过 程 克 隆 来 消除 ， 这 种 方法 也 将 在 14.4.7 小 节 中 讨论 。 

在 本 章 的 余下 部 分 ， 我 们 假设 对 于 每 个 数组 ， 在 程序 中 的 每 一 点 只 有 一 个 可 用 的 数据 分 
布 模式 。 事 实 上 处 于 简化 的 考虑 ， 我 们 假设 在 一 个 子 程序 中 ， 同 一 个 数组 的 所 有 引用 具有 的 
都 是 一 个 相同 的 数据 分 布 模式 。 在 此 基础 上 ， 我 们 可 以 构造 映射 ， 实 现 从 数组 的 全 局 下 标 空 
间 到 一 个 处 理 器 及 在 这 个 处 理 器 内 的 局 部 下 标 空间 的 变换 : 

Hai) = (Pa), ba) = (P, j) (14-1) 
BOF Ott —* SBE BAA NS Jeg FRB) — PHBE AA AARS A 
素 ， 而 5 将 全 局 下 标 映 射 到 拥有 该 数组 元 素 的 处 理 器 的 局 部 下 标 /。 例 如 ， 假 定 声明 在 一 组 编 
号 为 0 至 p — 1 的 所 有 处 理 器 土 以 BLOCK 方式 分 布 一 个 一 维 数 组 A， 如 果 数 组 A 声 明 有 AN 个 元 素 ， 
下 标 从 元 素 1 开 始 ， 则 这 个 数组 分 布 块 的 大 小 由 
Bi= | wp] (14-2) 
给 出 ， 此 公式 保证 除了 最 后 一 个 处 理 器 上 的 数据 块 未 被 填 满 外 ， 其 他 所 有 数据 块 的 大 小 是 一 
样 的 。 有 了 这 个 定义 ， 我 们 就 能 够 计算 映射 函数 的 值 : 
pali) = [i/Ba]- 1 (14-3) 
òli) =(i— Dmod B, + 1 =i ~ pa(i)Ba (14-4) 
这 些 映射 函数 将 是 下 一 小 节 介 绍 的 循环 分 析 的 基本 内 容 。 

一 且 我 们 知道 了 一 个 循环 代 套 中 不 同 数组 所 具有 的 分 布 模式 ， 我 们 就 完成 了 确定 对 这 个 

循环 进行 计算 划分 和 插入 通信 和 的 准备 工作 。 我 们 从 计算 划分 开始 。 


14.3.2 ERANS 
大 多 数 HPF 编 译 器 采用 ( 左 端 ) 拥有 者 计算 的 原则 进行 计算 划分 。 这 条 原则 表明 的 是 ， 对 
于 一 个 单 语句 的 循环 ， 由 选 代 的 赋值 语句 左 部 数据 项 的 拥有 者 执行 每 个 迁 代 。 所 以 ， 在 循环 
REAL A(10000), 8(10000) 
!HPF$ DISTRIBUTE A(BLOCK), B(Block) 
00 I = 1, 10000 
ACI) = B(I) +C 


ENDDO 
中 ， 园 代 I 在 A(I) 的 拥有 者 上 执行 。 如 果 有 100 个 处 理 器 参加 运算 、 则 开始 的 100 次 选 代 在 处 理 
器 0 上 执行 ， 下 一 个 100 次 和 迭代 在 处 理 器 1 上 执行 ， 以 此 类 推 。 
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确定 了 左 端 拥有 者 计算 的 原则 ， 我 们 应 该 如 何 处 理 多 语 旬 的 循环 呢 ? 一 个 简单 的 策略 是 
利用 循环 分 布 ， 将 循环 分 解 为 一 系列 的 单 语句 循环 。 稍 后 ， 这 些 循环 将 通过 第 6 章 介 绍 的 带 类 
型 合并 技术 重新 合并 在 一 起 。 除 了 不 能 再 进一步 分 布 的 依赖 环 的 例子 外 ， 这 个 方法 对 其 他 循 
环 都 有 效 。 

对 于 依赖 环 情 形 ， 编 译 器 必须 选择 在 依赖 环 中 的 某 个 语句 的 左 端的 拥有 者 上 执行 所 有 计 
算 。 我 们 称 这 种 引用 为 划分 引用 。 在 依赖 环 循环 中 选择 一 个 划分 引用 应 该 采用 如 下 的 启发 式 
策略 : 它 的 目标 是 使 语句 集合 中 的 携带 依赖 数目 减 到 最 少 。 如 同 我 们 在 14.4.3 小 节 中 将 看 到 的 ， 
通过 对 齐 优化 (此 优化 技术 与 在 6.2.3 小 节 中 介绍 的 技术 类 似 ) 可 以 减少 总 的 携带 依赖 的 数目 。 

一 旦 选 定 一 个 划分 引用 ， 就 必须 实现 循环 划分 。 这 项 工作 的 主要 结果 是 确定 给 定 的 循环 
从 全 局 迭代 到 执行 选 代 的 处 理 器 的 映射 。 对 于 一 个 循环 头 中 索引 变量 为 [的 给 定 的 循环 

DO I=1, N 


假设 划分 引用 是 

A(a(T)) 
Hhok—-T+ HR, EH HAE THEA MARKER ERA ROARS. R 
AEF BR Bock — TR 5 AER EE Be SE AP A — et OR. Ra, 4 ALY 
MIZS TA AACaCL) AY, FAA RAR IAD (RNA RPT ERINU RS) 由 下 式 给 
出 : 


0.(1)= pa(a(1)) (14-5) 
在 给 定 的 处 理 器 ?上 执行 的 索引 集合 可 用 表达 式 
{I 满足 1 < 1< N60,(1)= pal) ==p} (14-6) 
确定 。 这 个 集合 可 以 定义 为 更 简单 的 形式 : 
op APH) N ELN] (14-7) 


这 个 和 迭代 集合 的 问题 是 它 是 全 局 迭代 集合 的 一 个 子 集 。 为 了 有 效 性 ， 我 们 把 它 转 换 为 局 
部 迭代 集合 。 为 此 有 目 的， 我们 需要 计算 从 全 局 迭代 到 局 部 迭代 的 映射 。 对 于 一 个 给 定 的 循环 L， 
我 们 称 这 个 映射 为 A。 

对 于 局 部 迭代 集合 ， 它 可 以 方便 地 表示 从 1 到 某 个 上 界 的 一 次 遍历 ， 所 以 我 们 将 使 

a ‘(pr PH) 

中 的 最 小 值 映射 为 索引 1 。 对 于 拥有 和 迭代 1 和 N 中 的 划分 引用 的 处 理 器 必须 作为 特别 情况 处 理 ， 
我 们 将 马上 讨论 到 这 种 情况 。 

考虑 下 面 循环 的 例子 : 

DOI=1,N 


A(I+1) = B(I) +€ 
ENDDO 


”引用 A(I+1) 是 划分 引用 。 如 果 A 与 在 前 面 的 例子 中 声明 的 一 样 ， 


REAL A(10000) 
!HPF$ DISTRIBUTE A(BLOCK) 


并 且 有 100 个 处 理 器 参加 计算 ， 分 布 块 的 大 小 是 100， 并 且 
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Px '({p}) =[100p + 1 : 100p + 100} 
由 于 a(GD =i+1， 反 减 1: 

a-'(px({p})) = [100p : 100p +99] 
由 于 100p 是 这 个 迭代 范围 的 全 局 索引 的 最 小 值 ， 我 们 将 为 每 个 处 理 器 通过 映射 给 出 新 的 迭代 
变量 i， 它 将 从 1 开始 迭代 到 100。 特 别 规定 ， 


i=1- 100 * PID+1 (14-8) 
其 中 i 是 每 个 处 理 器 的 局 部 变量 。 此 式 可 以 改写 为 计算 I 的 值 : 
I=i+100*pPID -1 (14-9) 


根据 这 个 例子 ， 我 们 可 以 定义 从 全 局 迭代 空间 到 处 理 器 p 的 局 部 迭代 空间 的 抽象 的 映射 
A(I,p) 如 下 : 
A(I,p)=I -min(o (pa'({p)))+1 (14-10) 
在 我 们 的 例子 中 ， 该 映射 是 
A(I,PID) = I - 100 * PID + 1 (14-11) 
下 一 步 工作 是 调整 数组 的 下 标 ， 使 其 与 对 局 部 索引 集合 的 映射 匹配 。 考 虑 如 下 形式 的 数 
组 B 的 引用 : 
l B(B(I)) 
我 们 的 目标 是 把 这 个 引用 映射 为 一 个 对 局 部 8 的 引用 
B(y(i)) 
此 处 的 y(i ) 将 局 部 索引 i 映射 到 局 部 6 的 正确 的 位 置 。 换 言 之 ， 为 B 
TE RIERAN RES, SBMA) RR ey, AAR (a) (a) 
代数 组 引用 下 标 中 的 B。 预 期 的 关系 由 图 14-2 确 定 。 在 这 个 图 示 
中 ，6GL 代 表 全 局 循环 迭代 ，6I 代 表 全 局 数组 下 标 ，LL 代 表 局 部 循 A è 
环 索 引 ，LI 代 表 局 部 数组 下 标 。 映 射 6 是 全 局 数组 下 标的 函数 。 
前 面 描 述 的 函数 A 和 前 一 小 节 描述 的 函数 6 实现 全 局 信息 到 局 部 数 (a) © 
组 下 标的 映射 。 Y 
就 图 14-2 而 言 ， 显 而 易 见 ， 对 于 一 个 给 定 的 处 理 器 p， 希 望 的 


局 部 下 标的 函数 由 下 式 给 出 : 图 14-2 索引 集合 和 


1(1) =8(B( A244 ))) (14-12) BASE A INRA 
在 我 们 的 例子 中 ， 邱 数 5 由 
. Se(K)=K - 100 * PID (14-13) 
定义 ,而 A (从 公式 (14-11) 得 到 ) 的 逆 由 
ArI(i,PID) = i + 100 * PID -1 (14-14) 
给 出 。 由 于 8 是 便 等 式 ， 我 们 可 以 简单 地 应 用 从 公式 (14-11) PEIKA, ER 
y(i) = i + 100 * PID -1 - 100 * PID=i- 1 (14-15) 


由 于 下 标 函 数 w 对 其 参数 加 1， 所 以 对 数组 A 的 映射 与 此 映射 只 有 微小 的 不 同 。 因 此 对 于 局 
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部 循环 ， 引 用 A(I+1 ) 被 改写 成 A(i)。 
在 考虑 了 所 有 这 些 之 后 ， 对 于 内 部 的 处 理 器 ， 循 环 变 成 
DO i = 1，100 
AG) =BG - 1) + ( 
ENDD0 
然而 ， 如 何 处 理 全 局 循环 的 上 界 和 下 界 的 细节 还 没有 讨论 。 这 些 讨论 只 对 于 拥有 和 迭代 L (循环 
下 界 ) 和 N 的 处 理 器 是 重要 的 。 对 于 拥有 循环 [的 处 理 器 ， 我 们 必须 保证 循环 的 开始 不 早 于 迭代 


A(L, p)=L+1-min(a-'(px'({p}))) (14-16) 
同样 ， 在 拥有 和 返 代 N 的 处 理 器 上 ， 我 们 必须 保证 迭代 的 执行 不 超过 
A(N, p)=N+1—-min(a-'(pa'({p}))) (14-17) 


注意 ， 一 个 给 定 的 迭代 K 的 拥有 者 由 公式 9(K)= pa(a(K)) 得 到 。 所 以 ， 我 们 可 以 通过 对 
上 述 等 式 的 测试 确定 哪个 处 理 器 是 拥有 者 。 这 些 要 点 可 以 通过 上 述 例 子 的 推演 显示 。 借 助 于 
AK (14-16) 的 使 用 ， 我 们 发 现 0 号 处 理 器 拥有 全 局 迭代 1， 所 以 在 这 个 处 理 器 上 对 应 的 近代 
下 界 是 2。 对 于 循环 上 界 N， 拥 有 这 个 迭代 的 处 理 器 是 

pu= [(N+1)/100]-1=[N/100] 
利用 公式 (14-17)， 对 应 的 局 部 迭代 由 
N+1—PID * 100=N+1-100 * ([N/100}])=N mod 100+1 

给 出 。 因 此 ， 例 子 循环 得 到 的 最 后 形式 如 下 : 


1o = 1 
IF (PID == 0) 10 = 2 
hi = 100 
IF (PID == CEIL((N + 1 / 100) - 1) hi = MOD(N, 100) + 1 
DO i = lo, hi 
A(i)=B8(i -1)+C 
ENDDO 


至 此 ， 我 们 已 经 能 够 解决 如 何 转换 为 局 部 索引 和 局 部 下 标 表 达 式 的 问题 。 当 处 理 器 计算 一 
个 并 不 为 它 所 拥有 的 表达 式 时 ， 我 们 仍然 存在 应 该 如 何 做 的 问题 。 这 也 是 下 一 节 讨 论 的 通信 
生成 的 目标 。 
14.3.3 通信 生成 

循环 编译 过 程 的 最 后 一 步 是 生成 这 个 循环 需要 的 通信 。 正 如 我 们 前 面 指出 的 ， 这 个 工作 
可 以 通过 分 析 每 个 引用 的 足迹 来 完成 。 足 迹 是 指引 用 在 局 部 的 迭代 空间 上 处 理 的 迭代 的 集合 。 

假设 我 们 有 一 个 数组 引用 ， 它 出 现在 一 个 被 分 布 的 循环 中 赋值 语句 的 右 端 ， 这 个 循环 的 
索引 变量 是 1， 数 组 引用 的 下 标 表 达 式 是 B(1): 

B(BCI)) 
索引 变量 值 的 集合 由 
B-p ph) (14-18) 

给 出 ， 其 中 这 个 引用 引用 了 B 的 一 个 元 素 ， 而 这 个 元 素 是 局 部 于 处 理 器 p 的 。 

如 果 这 个 引用 是 语句 右 端 惟一 的 一 个 引用 ， 则 不 需要 通信 的 迭代 集合 由 
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a (px'({p})) A BC ({p})) A [L:N] (14-19) 
给 出 。 其 他 任何 选 代 将 需要 从 某 个 其 他 的 处 理 器 接收 数据 。 也 就 是 说 ， 如 果 
TE (a (pa'C{p}))-B i ps'C{p}))) N [1:N] (14-20) 


则 在 迭代 I 中 ， 我 们 必须 为 了 语句 右 端的 这 个 引用 而 从 拥有 这 个 元 素 的 处 理 器 接收 数据 。 

在 一 些 迭 代 中 ， 我 们 需要 将 数据 发 送 到 其 他 的 处 理 器 。 在 任何 迭代 中 ， 当 处 理 器 p 拥 有 数 
据 但 是 不 执行 进行 这 个 计算 的 语句 时 ， 则 发 生 这 种 情况 。 在 我 们 的 集合 表示 法 中 ， 发 送 发 生 
在 满足 

TE (Bi(ps ({p}))-o (pr ({p}))) A [DENI (14-21) 

的 时 候 。 

让 我 们 现在 回 到 例子 ， 探 讨 这 些 公式 的 含义 。 

REAL A(10000), B(10000) 

!HPF$ DISTRIBUTE A(BLOCK), B(BLOCK) 


DO I=1,N 
A(I + 1)=B(I)+(C 
ENDDO 


我 们 已 经 知道 
a-i(pa'({p}))=[100p : 100p +99] 
语句 右 端 的 迭代 的 集合 由 
B-p ({p}))=[100p+1 : 100p +100] 
给 出 ， 其 中 的 数据 是 局 部 的 。 根 据 公 式 (14-19)， 在 处 理 器 p 上 不 需要 通信 的 迭代 集合 是 
[100p : 100p+99] N [100p+1 : 100p+100] 
=[100p+1 : 100p +99] 
按照 公式 (14-20), HELM R AIOE R RRRA 
[100p : 100p +99]-[100p+1 : 100p+100]=[100p : 100p] 
给 出 ， 而 按照 公式 (14-21) 在 计算 开始 前 必须 向 一 个 相 邻 处 理 器 发 送 数据 的 迭代 的 集合 是 
[100p+1 : 100p+100] — [100p : 100p+99] 
=[100p+100 : 100p+100] 

在 为 这 些 局 部 迭代 生成 代码 之 前 ， 我 们 必须 决定 局 部 存储 分 配 应 该 是 什么 样 的 。 在 这 个 
例子 中 ， 我 们 需要 在 每 一 个 处 理 器 上 存放 A 的 100 个 元 素 。 另 外 ， 我 们 需要 足够 的 空间 存放 8 的 
100 个 元 素 ， 以 及 一 个 额外 的 存储 单元 用 于 存放 从 左边 紧邻 的 处 理 器 传送 来 的 8 的 一 个 元 素 的 
值 。 因 此 ， 让 我 们 假设 我 们 对 局 部 值 的 存储 空间 是 A(1:100) 和 B(0:100)。 

在 探讨 要 生成 的 代码 前 ， 我 们 需要 一 种 方式 把 那些 需要 进行 通信 的 迭代 映射 为 局 部 的 迭 
代 集 合 。 让 我 们 从 “接收 ”开始 ， 因 为 显然 我 们 必须 在 一 个 运 代 中 接收 对 其 执行 计算 的 数据 。 
这 个 循环 的 局 部 迭代 是 

A(100 * PID, PID) = 100 * PID - 100 * PID+1=1 (14-22) 
所 以 我 们 必须 在 迭代 1 中 接收 。 在 调整 后 包含 接收 数据 的 循环 代码 如 像 下 面 的 形式 : 
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lo = 1 

IF (PID == 0) lo = 2 

hi = 100 

IF (PID == CEIL((N + 1) / 100) - 1) hi = MOD(N, 100) + 1 
DO i = lo, hi 


IF (i == 1 .AND. PID /= 0) RECV(PID - 1, B(O), 1) 
AG) = B(i - 1) + 
ENDDO 
上 面 的 接收 操作 实际 上 并 不 需要 保证 ?ID 0 的 条 件 ， 因 为 在 那个 处 理 器 上 1o 将 永远 不 等 于 1， 
但 是 出 于 完整 性 的 考虑 ， 我 们 保留 这 个 条 件 。 
发 送 操作 必然 发 生 在 如 下 的 局 部 迭代 中 : 
A(100 * PID + 100, PID) = 100 * PID - 100 * PID + 101 = 101 (14-23) 
(He, PREM ATARAEETRMERBRER ZA. MA, RIBAS A TRZE 
迭代 范围 扩展 到 包含 这 次 迭代 ， 要 么 在 循环 外 生成 执行 发 送 的 特殊 代码 。 此 外 ， 我 们 必须 保 
证 不 会 在 循环 的 最 后 一 个 迭代 发 送 ， 因 为 不 会 有 接收 发 生 。 如 果 选 择 第 一 种 方案 ,我们 需要 
在 循环 中 加 入 另 一 个 条 件 语句 ， 控 制 每 一 个 迭代 的 执行 : 


lo = 1 
IF (PID == 0) lo = 2 
hi = 100 


lastP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 
DO i = 10, hi +1 
IF (i == 1 .AND. PID /= 0) RECV(PID - 1, B(Q), 1) 
IF (i <= hi) THEN 
AG) = BOE - 1) + € 
ENDIF 
IF (i == hi + 1 .AND. PID /= lastP) & 
SEND(PID + 1, B(100), 1) 


ENDDO 
将 发 送 移动 到 循环 外 的 位 置 ， 可 以 大 大 简化 这 段 代码 : 
1o = 1 
IF (PID == 0) 1o = 2 
hi = 100 


lastP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 
IF (PID <= lastP) THEN 
DO i = lo, hi 
IF (i == 1 .AND. PID /= 0) RECV(PID - 1, B(O), 1) 
A(G) = BCG - 1) +C 
ENDDO 
IF (PID /= lastP) SEND(PID + 1, B(100), 1) 
ENDIF 


我 们 注意 到 同样 可 以 通过 将 接收 移动 到 循环 外 而 进一步 简化 这 段 代码 。 基 于 后 面 将 说 明 
的 原因 ， 我 们 将 选择 从 主 计算 循环 中 剥离 接收 选 代 的 方式 实现 上 述 需求 : 


lo = 1 
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IF (PID == 0) lo = 2 
hi = 100 
lastP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 
IF (PID <= lastP) THEN 
IF (to == 1) THEN 
RECV(PID - 1, B(0), 1) 
A(1) = B(O) +C 


ENDIF 
! lo = MAX(To, 1 + 1) == 2 
DO i = 2, hi 
A(i) = BCG - 1) + C 
ENDDO 
IF (PID /= lastP) SEND(PID + 1, B(100), 1) 
ENDIF 


这 是 你 希望 编译 器 能 够 生成 的 一 类 代码 。 但 是 ， 这 段 代 码 仍然 有 一 个 问题 。 如 像 写 出 的 那 
样 ， 循 环 将 在 处 理 器 组 中 的 处 理 器 间 以 串 行 方式 执行 。 也 就 是 说 ， 处 理 器 0 在 处 理 器 1 开始 执 
行 前 完成 循环 的 所 有 操作 ， 因 为 发 送 是 放 在 循环 的 最 后 ， 而 接收 是 放 在 开始 的 位 置 。 如 果 这 
段 代 码 能 够 安全 地 重 排 ， 以 便 首先 完成 所 有 的 发 送 ， 则 并 行 性 可 以 显著 地 提高 。 新 的 代码 是 


lo = 1 
IF (PID == 0) lo = 2 
hi = 100 


lastP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 
IF (PID <= lastP) THEN 
IF (PID /= lastP) & 
SEND(PID + 1, B(100), 1) ! 从 最 后 移动 过 来 
IF (lo == 1) THEN 
RECV(PID - 1, B(O), 1) 
A(1) = B(O) +€ 


ENDIF 
DO i = 2, hi 
ACi) = Bi - 1) +C 
ENDDO 
ENDIF 


这 导致 一 个 问题 ， 这 样 的 一 个 重 排序 何 时 是 合法 的 ? 为 了 回答 这 个 问题 ， 我 们 必须 有 某 种 
[708] 机制 ， 以 便 计算 包含 有 通信 的 循环 中 的 依赖 ， 如 上 面 给 出 的 例子 。 诀 窍 是 将 通信 操作 看 成 是 内 
存 访 问 ， 这 样 就 可 以 直接 使 用 我 们 已 经 建立 起 来 的 依赖 机 制 。 解 决 方案 是 接受 这 样 一 个 约定 : 
一 个 接收 只 不 过 是 将 A 从 全 局 存储 位 置 拷贝 到 一 个 局 部 位 置 。 类 似 地 ， 一 个 发 送 是 一 个 将 A 从 局 
部 位 置 拷贝 到 全 局 位 置 。 借 助 这 些 方法 ， 上 面 的 初始 版 本 的 循环 看 起 来 类 似 于 下 面 的 代码 : 
IF (PID <= lastP) THEN 
Sı IF (10 == 1 .AND. PID /= 0) THEN 
B(0) = 8Bo(0) ! 接收 
A(1) = B(0) +C 
ENDIF 
DO i = 2, hi 
A(i) = BCG - 1) + CC 
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ENDDO 
Sz IF (PID /= 1astp) B,(100) = B(100) =! ik 
ENDIF 


如 果 我 们 当初 对 这 段 代码 实施 的 是 依赖 分 析 , 将 发 现 不 存在 导致 从 5 到 5; 的 依赖 链 。 因 此 ， 
在 包含 的 IF 语 句 内 部 ， 这 些 语句 是 可 以 重 排序 的 。 
另 一 方面 ， 如 果 初 始 代码 是 


REAL A(10000), B(10000) 
!HPF$ DISTRIBUTE A(BLOCK), B(BLOCK) 


DO I=1,N 
AG + 1) = ACI) + ( 
ENDDO 
循环 将 被 改写 为 
IF (PID <= 1astP) THEN 
Si IF (1o == 1 .AND. PID /= 0) THEN 
ACO) = A,(O) ! 接收 
A(1) = A(O) +C 
ENDIF 
DO i = 2, hi 
ACG) = A(i - 1) +C 
ENDDO 
S; IF (PID /= tastP) A,(100) = A(100) ! 发 送 
ENDIF 


此 例 中 有 一 个 依赖 ， 必 须 以 串 行 方式 计算 。 因 此 ， 重 排序 将 不 是 正确 的 。 


14.4 优化 

一 旦 确定 循环 生成 代码 的 基本 框架 ， 我 们 就 能 够 看 到 可 以 实施 很 多 优化 。 这 些 优化 的 目 
的 是 提高 通信 的 性 能 或 通过 通信 和 计算 的 重生 而 隐藏 通 信 。 另 外， 通过 流水 线 技术 ， 可 以 使 
一 些 不 能 完全 并 行 的 计算 获得 部 分 并 行 化 。 最 后 ， 我 们 将 考虑 与 存储 管理 相关 的 问题 ， 以 及 
这 些 问题 可 能 如 何 使 通信 优化 问题 复杂 化 。 


14.4.1 通信 向 最 化 
在 大 多 数 消息 传递 机 器 上 ， 发 送 一 个 消息 的 代价 包括 两 部 分 : 启动 代价 和 每 个 单元 传 
输 的 代价 。 一 般 而 言 ， 启 动 的 代价 是 巨大 的 ， 所 以 将 在 同一 对 处 理 器 间 传 输 的 多 个 消息 合 
并 成 一 个 消息 是 有 好 处 的 。 这 是 通信 向 量化 的 目标 。 通 过 将 我 们 已 经 考虑 过 的 例子 扩展 为 
两 个 循环 
REAL A(10000, 100), B(10000, 100) 
!HPF$ DISTRIBUTE A(BLOCK, *), B(BLOCK, *) 
DOJ=1, M 
DOI=1,N 
A(I + 1, J) = BCI, J) + 
ENDDO ` 
ENDDO 


可 以 说 明 这 个 变换 。 
如 果 我 们 应 用 前 节 中 的 代码 生成 过 程 ， 将 得 到 如 下 形式 的 循环 : 
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DOJ=1, M 
To = 1 
IF (PID == 0) lo = 2 
hi = 100 
lastP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 
IF (PID <= lastP) THEN 
IF (PID /= lastP) & 
SEND(PID + 1, B(100, J), 1) 
IF (lo == 1) THEN 
RECV(PID - 1, B(0, J), 1) 
A(1, J) = B(0, J) + CC 
ENDIF 
DO i = 2, hi 
A(i, J) = Bi - 1, JP +( 
ENDDO 
ENDIF 
ENDDO 


如 果 可 以 确定 能 够 将 0- 循环 围绕 代码 中 的 二 个 组 成 部 分 分 布 为 


lo = 1 
IF (PID == 0) lo = 2 
hi = 100 
lastP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 
IF (PID <= lastP) THEN 
DO J=1, M 
IF (PID /= lastP) & 
SEND(PID + 1, B(100, J), 1) 
ENDDO 
D0OJ=1, M 
IF (Jo == 1) THEN 
RECV(PID - 1, B(0, J), 1) 
A(1, J) = B(O, J) +C 
ENDIF 
ENDDO 
DOJ=1,M 
DO i = 2, hi 
ACi, J) = B(i - 1, J) + 
ENDDO 
ENDDO 
ENDIF 


那么 我 们 可 以 将 代码 中 所 有 的 接收 操作 向 量化 ， 产 生长 得 多 的 消息 : 


lo=1 

IF (PID == 0) lo = 2 

hi = 100 

lastP = CEIL((N + 1) / 100) - 1 

IF (PID == lastP) hi = MOD(N, 100) + 1 
IF (PID <= lastP) THEN 
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IF (1o == 1) THEN 
RECV(PID ~ 1, B(0, 1:M), M) 
DO J=1, M 
A(1, J) = B(0, J) +€ 
ENDDO 
ENDIF 
DO J=1, M 
DO i = 2, hi 
ACi, J) = B(i -1,J)+€ 
ENDDO 
ENDDO 
IF (PID /= lastP) & 
SEND(PID + 1, B(100, 1:M), M) 
ENDIF 
那么 实现 这 样 一 种 分 布 的 条 件 是 什么 呢 ? 换 名 话说， 我 们 何 时 可 以 将 发 送 和 接收 语句 移 
动 到 包含 它们 的 循环 (譬如 J- 循 环 ) 之 外 ? 为 了 理解 这 个 问题 ， 我 们 使 用 在 前 一 节 中 用 过 的 
依赖 计算 策略 一 一 将 通信 语句 看 作 是 在 局 部 数据 与 全 局 数据 之 间 的 拷贝 。 在 第 一 个 代码 生成 
步骤 之 后 ， 循 环 变 成 
DOJ=1, M 
lo=1 
IF (PID == 0) lo = 2 
hi = 100 
JastP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 
IF (PID <= lastP) THEN 
Sı IF (PID /= lastP) B,(100, J) = B(100, J) 
! SEND(PID + 1, B(100, J), 1) 
IF (lo == 1) THEN 


Sz B(0, J) = B,(0, J) ! RECV(PID - 1, B(0, J), 1) 
S; A(1, J) = B(0, J) +C 

ENDIF 

DO i = 2, hi 
S4 AG, 9) = B(i - 1, J)+5C 

ENDDO 

ENDIF 
ENDDO 


假设 J- 循 环 可 以 和 IF 语句 进行 交换 ， 问 题 在 于 外 层 循环 能 否 围绕 IF 语句 中 的 语句 分 布 。 
如 果 J- 循 环 没 有 携带 包含 通信 语句 的 依赖 环 ， 这 种 分 布 是 可 能 的 。 在 前 面 的 例子 中 ， 带 标记 
的 语句 间 惟 一 的 依赖 是 :和 S$s 间 的 依赖 。 因 此 ， 没 有 依赖 环 包含 -循环 ， 从 而 所 有 的 通信 都 可 
以 向 量化 。 

我 们 现在 可 以 将 这 些 思想 概括 为 通信 向 量化 的 规则 。 


原理 14.1 ”如 果 由 内 层 循 环 生 成 的 通信 语句 不 包含 在 外 层 循 环 携带 的 依赖 环 中 ， 
这 些 通信 语句 相对 于 外 层 循 环 是 可 以 向 量化 的 。 


为 了 说 明 这 个 原理 的 合法 性 ， 请 回忆 我 们 知道 循环 分 布 是 可 能 的 ， 只 要 对 其 实施 分 布 的 语句 
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不 构成 一 个 由 被 分 布 的 循环 携带 的 依赖 环 ( 匈 2.4.2 节 )。 如 果 存 在 这 样 一 个 依赖 环 ， 则 分 布 不 
能 被 实施 ， 且 通信 向 量化 是 被 禁止 的 。 | 
下 面 是 另外 一 个 例子 ， 与 我 们 原来 的 例子 稍 有 不 同 


REAL A(10000, 100), B(10000, 100) 
'HPF$ DISTRIBUTE A(BLOCK, *), B(BLOCK, *) 
DOJ=1,M 
DOI=1,N 
A(I +1, J +1) = A(T + 1, J) + BCI, J) 
ENDDO 
ENDDO 


与 前 面 的 例子 类 似 ， 由 于 对 I- 循 环 的 划分 ， 我 们 需要 对 数组 8 的 通信 。 另 一 方面 ， 对 A 的 引用 
不 需要 通信 ， 因 为 这 些 引 用 与 I- 循 环 的 同一 迭代 是 对 齐 的 。 因 此 这 个 循环 将 有 一 个 与 前 面 例 
子 相同 的 通信 依赖 模式 ， 所 以 此 处 的 通信 也 是 可 以 被 向 量化 的 。 
另 一 方面 ， 假 设 我 们 造成 了 一 种 情景 ， 其 中 需要 对 被 计算 的 变量 A 进行 通信 。 
REAL A(10000, 100), B(10000, 100) 
IHPF$ DISTRIBUTE A(BLOCK, *), B(BLOCK, *) 
p0J=1,M 
DOI=1,N 
A(I +1, J) = ACI, J) + B(I, J) 
ENDDO 
ENDDO 
在 最 初 的 代码 生成 步骤 后 ， 得 到 的 代码 看 起 来 如 像 下 面 的 形式 ， 其 中 的 通信 同 前 面 一 样 已 经 
用 拷贝 替换 : 
DOJ=1,M 
10 = 1 
IF (PID == 0) lo = 2 
hi = 100 
lastP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 
IF (PID <= lastP) THEN 
IF (10 == 1) THEN 
B(0, J) = B,(0, J) ! RECV(PID - 1, B(0, J), 1) 


S; ACO, J) = ACO, J) ! RECV(PID - 1, ACO, J), 1) 
S: A(1, J) = ACO, J) + B(0, J) 
ENDIF 
DO i=2, hi 
S; Ali, J) = ACGi - 1, J) + BCE - 1, J) 
ENDDO 
Sa IF (PID /= lastP) THEN 


B,(100, J) = B(100, J) ! SEND(PID + 1, B(100, J)) 
A,(100, J) = A(100, J) ! SEND(PID + 1, A(100, J)) 
ENDIF 
ENDIF 
ENDDO 


虽然 发 送 B 的 值 的 语句 可 以 移动 到 开始 的 位 置 ， 但 此 处 由 I- 循环 携带 的 依赖 阻止 我 们 重 排 
发 送 语句 和 接收 语句 。 然 而 ，J- 循 环 不 携带 任何 依赖 ， 所 以 通信 仍然 可 以 被 向 量化 : 
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lo =1 
IF (PID == 0) lo = 2 
hi = 100 


lastP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 
IF (PID <= lastP) THEN 
IF (lo == 1) THEN 
RECV(PID - 1, BCO, 1:M), M) 
Si RECV(PID - 1, ACO, 1:M), M) 
DO J=1, M 
S2 A(1, J) = ACO, J) + B(0, J) 
ENDDO 
ENDIF 
DOJ=1, M 
DO i = 2, hi 
S; ACi, J) = A(i - 1, J)+B(i - 1, J) 
ENDDO 
ENDDO 
Sa IF (PID /= lastP) THEN 
SEND(PID + 1, B(100, 1:M), M) 
SEND(PID + 1, A(100, 1:M), M) 
ENDIF 
ENDIF 


最 后 ， 我 们 给 出 一 个 不 可 能 向 量化 的 例子 。 


REAL A(10000, 100) 
'HPF$ DISTRIBUTE A(BLOCK, *) 


DO J=1, M 
DOI=1,N 
A(IT+1,J+1)= ACI, J) +C 
ENDDO 
ENDDO 
在 对 I- 循 环 实施 划分 并 插入 通信 后 ， 我 们 得 到 
D0 J = 1，# 
10 = 1 
IF (PID == 0) lo = 2 
hi = 100 
lastP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 


IF (PID <= lastP) THEN 
IF (lo == 1) THEN 


So A(0, J) .= A,(0, J) ! RECV(PID - 1, B(0, J), 1) 
Sı ACL, J+ 1) = ACO, J)+5C 

ENDIF 

DO i = 2, hi 
Sz AG, J+1)=A( -1,J)+C 

ENDDO 


IF (PID /= lastp) THEN !SEND(PID + 1, A(100, J + 1)) 
S; A,(100, J + 1) = A(100, J + 1) 


Mn 
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ENDIF 
ENDIF 
ENDDO 


此 处 的 通信 语句 不 能 被 向 量化 ， 因 为 存在 一 个 由 J- 循 环 携带 的 依赖 环 。 请 注音 依赖 环 的 
距离 与 数组 A 的 块 长 是 相等 的 。 因 此 ， 我 们 可 以 通过 循环 分 段 得 到 部 分 的 通信 向 量化 ， 如 下 面 
代码 所 示 : 

DO J=1, M, 100 
lo = 1 
IF (PIO == 0) lo = 2 
hi = 100 
JastP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 
IF (PID <= lastP) THEN 
IF (lo == 1) THEN 
So RECV(PID - 1, ACO, J:J + 99), 100) 
DO j= J, J+ 99 
Si AGL, j +1) = AMO, jf) +C 
ENDDO 
ENDIF 
D0 j=d, J + 99 
DO i = 2, hi 
S: A(i, jf +1) = Ali -1, ġ)+C 
ENDDO 
ENDDO 
IF (PID /= lastp) THEN 
S3 SEND(PID + 1, A(100, J:y + 99), 100) 
ENDIF 
ENDIF 
ENDDO 


14.4.2 重生 通信 和 计算 

通过 将 通信 和 与 计算 重合 ， 通 常 可 以 隐藏 通信 的 代价 。 为 了 说 明 这 种 情况 是 如 何 发 生 的 ， 
让 我 们 回 到 前 小 节 中 用 到 的 例子 。 

REAL A(10000)，B(10000) 

!HPF$ DISTRIBUTE A(BLOCK), B(BLOCK) 


DOI=1,N 


A(I + 1) = BCI) +C 
ENDDO 
我 们 已 经 看 到 这 个 例子 可 以 得 到 下 述 局 部 代码 : 
10 = 1 
IF (PID == 0) lo = 2 
hi = 100 


1astP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 
IF (PID <= 1astP) THEN 
So IF (PID /= lastP) SEND(PID + 1, B(100), 1) 
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S; IF (10 == 1) THEN 
RECV(PID - 1, B(0), 1) 
A(1) = B(O) +€ 


ENDIF 
Lı DO i = 2, hi 
ACG) = Bi - 1) +C€ 
ENDDO 
ENDIF 


请 注意 循环 Li, 中 的 代码 都 不 依赖 于 同 其 他 处 理 器 通信 得 到 的 值 。 所 以 ， 我 们 可 以 对 代码 
重 排序 ， 使 得 这 段 计 算出 现在 发 送 和 接收 之 间 。 
lo = 1 
IF (PID == 0) 1o = 2 
hi = 100 
1astP = CEIL((N + 1) / 100) - 1 
IF (PID == TastP) hi = MOD(N, 100) + 1 
IF (PID <= lastP) THEN 
So IF (PID /= lastP) SEND(PID + 1, B(100), 1) 


Li DO i = 2, hi 
ACi) = B(i - 1) +C€ 
ENDDO 
Si IF (10 == 1) THEN 


RECV(PID - 1, B(0), 1) 
A(1) = B(0) +C 
ENDIF 
ENDIF 


这 个 被 称 为 选 代 重 排序 的 变换 在 发 送 和 接收 之 间 隐 藏 尽 可 能 多 的 通信 延迟 。 如 果 所 有 的 
处 理 器 是 同时 发 送 的 ， 则 计算 的 时 间 可 以 从 实际 的 通信 时 间 中 减 去 ， 显 著 地 降低 通信 的 代价 。 

迭代 重 排序 总 是 可 以 用 于 原来 的 循环 不 携带 任何 依赖 的 地 方 一 -也 就 是 ， 只 要 在 生成 的 代 
码 中 没有 依赖 强制 接收 操作 必须 先 于 循环 体 中 的 计算 。 

通信 优化 的 另 一 种 方法 ， 是 在 控制 流 图 内 将 通信 移动 到 程序 中 可 能 的 最 早点 。 通 过 建立 
一 组 数据 流 方程 ， 并 利用 与 部 分 元 余 判 定 类 似 的 计算 过 程 求解 这 组 方程 ， 即 可 以 确定 正确 的 
插入 位 置 [137]。 


14.4.3 ”对齐 和 复制 

有 了 14.3 节 中 介绍 的 将 一 个 循环 的 迭代 划分 的 方案 ,我 们 不 需要 使 用 使 得 每 个 循环 尽 可 能 
小 的 循环 分 布 技术 。 我 们 可 以 采用 另外 一 种 方式 ， 在 一 个 大 循环 中 选择 一 个 划分 引用 ， 并 将 
整个 循环 一 起 划分 。 这 种 方案 的 缺点 是 这 个 循环 可 能 携带 了 许多 依赖 ， 每 一 个 依赖 都 要 求 通 
信 。 在 本 小 节 中 ， 我 们 介绍 如 何 改 善 这 个 问题 。 

假设 我 们 为 一 个 循环 生成 代码 ， 这 个 循环 是 在 一 个 分 布 的 维 上 进行 迭代 一 一 也 就 是 说 ， 循 
环 的 迭代 将 在 不 同 的 处 理 器 上 执行 。 那 么 ， 这 个 循环 携带 的 每 个 真 依赖 都 要 求 通信 。 因 此 我 
们 如 果 可 以 消除 这 些 携 带 的 依赖 ， 总 的 通信 量 将 会 减少 。 

我 们 暂且 假设 循环 中 没有 依赖 环 。 那 么 我 们 从 6.2 节 知道 借助 循环 对 齐 和 代码 复制 ， 所 有 
携带 的 依赖 都 可 以 销 除 。 考 虑 一 下 下 面 的 代码 : 


~ 
— 
CN 
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DOI=1,N 
ACI + 1) = BCT) + C(I) 
DCI) = ACI + 1) + ACI) 
ENDDO 
XPRESS Er eA SAS AS RERA FS HR] 
题 的 循环 无 关 依赖 。 使 用 循环 对 齐 和 代码 复制 ， 这 个 循环 被 变换 为 
DOI=1,N 
TO = B(I) + C(I) 
ACL + 1) = TO 
IF (I == 1) THEN 
Tl = ACI) 
ELSE 
Tl = BCI - 1) + C(I - 1) 
ENDIF 
DCI) = TO + Tl 
ENDDO 


此 后 ， 代 码 生成 过 程 可 以 用 于 这 个 结果 ， 得 到 一 个 完全 并 行 循环 ， 虽 然 在 每 个 选 代 中 需要 少 
许 额外 的 计算 。 

在 存在 依赖 环 的 情形 ， 这 个 策略 可 以 用 来 将 依赖 环 执行 中 需要 的 总 通信 数量 减 到 最 少 。 
基本 思想 是 通过 排列 代码 ， 使 得 存在 的 后 向 依赖 数目 最 小 ， 然 后 对 章 循环 体 ， 从 而 消除 前 向 
携带 的 依赖 

这 个 策略 将 可 以 把 流水 线 处 理 的 重点 转向 只 关心 后 向 携带 的 依赖 


14.4.4 流水 
当 一 个 循环 仍 套 的 内 层 循环 必定 是 串 行 化 的 ， 如 果 外 层 循环 不 含有 跨越 处 理 器 的 依赖 ， 
有 可 能 达到 某 种 并 行 性 。 下 面 是 一 个 简单 的 例子 : 


REAL A(10000，100) 
'HPF$ DISTRIBUTE A(BLOCK, *) 
DO J=1, M 
DOI=1, N 
A(T +1, J) = ACI, J) + 
ENDDO 
ENDDO 
循环 I 的 初始 代码 生成 将 产生 
lo = 1 
IF (PID == 0) lo = 2 
hi = 100 
TastP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 
IF (PID <= lastP) THEN 
do J=1, M 
IF (lo == 1) THEN 
RECV(PID - 1, ACO, J), 1) 
A(1, J) = ACO, J) + 
ENDIF 
DO i = 2, hi 
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Ali, J) = A(i - 1, J) + ( 
ENDDO 
IF (PID /= lastP) & 
SEND(PID + 1, A(100, J), 1) 
ENDDO 
ENDIF 
虽然 在 这 个 例子 中 ， 通 信 操 作 可 以 被 完全 向 量化 ， 但 这 样 做 是 不 明智 的 ， 因 为 这 样 就 放 
弈 了 并 行 性 。 事 实 上 ， 上 面 形 式 的 循环 比 一 个 向 量化 循环 有 更 多 的 并 行 性 ， 因 为 一 旦 处 理 器 0 
完成 -循环 的 第 一 次 选 代 ， 处 理 器 1 就 可 以 开始 计算 其 局 部 的 A(1:100,1)。 换 名 话说，J- 循 
环 的 迭代 可 以 被 重 迭 。 这 可 以 通过 图 14-3 说 明 。 
这 个 方案 的 问题 是 每 次 通信 一 个 字 的 开销 将 超过 并 行 性 获得 的 收益 。 图 14-3 是 容易 令 人 
误解 的 ， 因 为 它 没有 显示 出 任何 通信 启动 或 实现 的 开销 。 图 14-4 给 出 了 一 个 更 接近 现实 的 图 
示 ， 它 显示 出 为 实现 一 次 发 送 而 在 处 理 器 和 通信 延迟 两 方面 的 开销 。 719 


PID = 0 





图 14-3 伴 有 通信 的 流水 线 并 行 性 图 14-4 伴 有 通信 开销 的 流水 线 并 行 性 720 


由 于 无 论 有 多 少 个 字 要 发 送 ， 大 多 数 开 销 的 代价 是 同样 的 ， 所 以 通过 在 传送 数值 前 计算 
J- 循 环 的 几 次 选 代 从 而 增加 流水 的 粒度 通常 是 有 利 的 ， 如 下 面 代码 中 那样 : 


lo = 1 
IF (PID == 0) lo = 2 
hi = 100 


lastP = CEIL((N + 1) / 100) - 1 
IF (PID == lastP) hi = MOD(N, 100) + 1 
IF (PID <= lastP) THEN 
DO J=1, M, K 
IF (10 == 1) THEN 
RECV(PID - 1, ACO, J:J + K - 1), K) 
DO j=J, J+K-1 
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A(1, j) = ACO, j) +C 
ENDDO 
ENDIF 
D j=J,J+K-1 
DO i = 2, hi 
ACG, j) = Ai- 1, j) +C 
ENDDO 
ENDDO 
IF (PID /= lastP) & 
SEND(PID + 1, A(100, J:J + K - 1), K) 
ENDDO 
ENDIF 


此 处 的 块 因子 K 是 一 个 可 以 根据 机 器 和 循环 中 的 计算 数量 两 方面 因素 调整 的 参数 。 可 以 使 
用 多 种 不 同 的 策略 确定 这 个 参数 。 例 如 ， 在 每 个 机 器 上 一 次 试验 性 的 运行 可 以 为 短 的 循环 决 
定 最 优 的 分 块 。 然 后 ， 这 个 同样 的 分 块 可 以 用 于 更 大 的 循环 。 


14.4.5 一 般 依赖 环 的 识别 
在 并 行 计 算 机 上 实现 的 许多 计算 包括 重复 从 在 多 个 内 存 中 分 布 的 数组 取 值 (作为 输入 ) 
的 操作 。 大 多 数 这 样 的 依赖 环 是 标准 的 模式 ， 如 求 和 归 约 。 这 些 模 式 通 常 在 每 台 机 器 上 有 一 
个 快速 的 库 实现 。 一 个 好 的 HPEF 编 译 器 应 该 能 够 借助 使 用 这 样 的 库 例 程 来 识别 和 替换 这 种 原 
始 的 计算 。 作 为 一 个 例子 ， 假 设 我 们 有 如 下 的 程序 : 
REAL A(10000), B(10000) 
IHPF$ DISTRIBUTE A(BLOCK), B(BLOCK) 
S = 0.0 
DOI=1,N 
S=S+AI)*B(I) 
ENDDO 
假设 此 处 的 变量 5 在 每 一 个 处 理 器 上 被 复制 ， 结 果 是 在 每 个 处 理 器 上 有 5 的 一 个 值 ， 这 个 
值 等 于 A 和 B 之 积 的 和 。 编 译 器 必须 首先 将 这 个 计算 分 解 为 局 部 和 全 局 的 成 分 。 假 设 有 100 个 处 
理 器 ， 因 此 块 长 是 100。 
lo = 1 
hi = 100 
lastP = CEIL(N / 100) -1 
IF (PID == lastP) hi = MOD(N - 1, 100) +1 
Slocal = 0.0 | 
IF (PID <= 1astP) THEN 
DO i = lo, hi 
Slocal = Slocal + A(i) * BCi) 
ENDDO 
ENDIF 


一 旦 这 一 步 完 成 ， 最 终 的 值 就 可 以 通过 调用 库 例 程 
S = GLOBAL_SUMCS1ocal) 


计算 出 来 ， 其 他 标准 的 依赖 环 可 以 用 同样 的 方式 处 理 。 
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14.4.6 存储 管理 
一 个 好 的 HPEF 编 译 器 必须 采取 步 又 保证 它 生 成 的 代码 不 会 要 求 超过 可 能 的 临时 存储 空间 。 
通常 ， 一 个 计算 应 该 不 会 要 求 获得 比 每 个 处 理 器 拥有 的 数组 更 多 的 临时 存储 空间 。 换 句 话说 ， 
我 们 将 假设 在 每 个 处 理 器 上 不 会 有 超过 一 半 的 内 存 被 用 来 保存 通信 的 值 。 
为 了 遵守 这 些 约定 ， 可 能 要 求 编译 器 对 计算 做 明显 的 重组 。 为 了 说 明 这 一 点 ， 我 们 将 考 
虑 和 矩阵 乘法 的 例子 ， 如 下 面 的 代码 所 示 : 
'HPF$ ALIGN ACI, J), BCI, J), CCI, J) WITH TCI, J) 
'HPF$ DISTRIBUTE TC(BLOCK, BLOCK) ONTO P(4, 4) 
00 K=1,N 
DO J=1, N 
DOI=1,N 
C(I, J) = CCI, J) + ACI, K) * B(K, J) 
ENDDO 
ENDDO 
ENDDO 
应 该 指出 ， 在 这 个 循环 中 ， 通 信 可 以 移动 到 所 有 循环 之 外 ， 这 是 编译 器 容易 确定 的 一 个 事实 。 
但 是 应 该 实施 这 个 移动 吗 ? 在 不 同 的 代码 位 置 ， 存 储 的 需求 是 什么 ? 如同 我 们 将 看 到 的 ， 将 
通信 放置 在 最 外 层 循 环 之 内 可 以 获得 对 存储 需求 的 显著 减少 。 
首先 ， 如 果 试 图 将 这 些 代码 完全 移动 到 最 外 层 循 环 之 外 ， 让 我 们 检查 会 发 生 什 么 。 如 果 
做 了 代码 移动 ， 生 成 的 代码 看 起 来 可 能 像 下 面 形式 ， 其 中 我 们 假设 局 部 存储 保存 A，B 和 (的 大 
小 mn x n 的 块 : 
! 与 资源 无 关 的 放置 
DO pR = 0, nRows - 1 
IF (pR /= myR) & 
SEND( (pR, myC), B(n * myR + l:n * myR +n, 1:n), n * n) 
ENDDO 
DO pC = 0, nCols - 1 
IF (pC /= myC) & 
SEND((myR, pC), AC1:n, myC * n + l:myC * n +n), n * n) 
ENDDO 
DO pR = 0, nRows - 1 
IF (pR /= myR) & 
RECV( (pR, myC), B(n * pR + 1:n * pR +n, 1:n), n * Nn) 
ENDDO 
00 pC = 0, nCols - 1 
IF (pC /= myC) & 
RECV((myR, pC), ACi:n, n * pC + i:n * pC +n), n * n) 


ENDDO 
DOK=1,n*4!1=N 
DOJ=1,n 
DOI=1,n 
C(I, J) = C(I, J) + ACT, K) * B(K, J) 
ENDDO 
ENDDO 
ENDDO 


请 注意 特殊 变量 myR 和 myC 指 明 热 行 计算 的 处 理 器 的 行 和 列 ， 因 此 数据 对 (myR,myC ) 等 价 于 当 
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前 的 PID。 
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这 段 代 码 的 问题 是 ， 它 需要 数组 A 的 4 块 存储 空间 ， 每 块 的 大 小 是 必 ， 数 组 8 同样 大 小 的 4 


块 存储 空间 ， 以 及 数组 5 的 1 块 存 储 空间 。 
因此 需要 的 总 存储 空间 是 9 个 大 小 为 2 的 
块 。 这 些 块 中 只 有 3 块 是 局 部 的 。 所 以 ,在 


这 个 通信 模式 中 ， 每 个 处 理 器 为 了 与 其 他 
处 理 器 通信 需要 6n? 的 存储 单元 一 是 局 部 = ~ 


变量 需要 的 存储 空间 的 两 倍 。 这 个 问题 在 
图 14-5 中 显示 。 

在 这 里 ， 每 个 处 理 器 需要 的 存储 空间 
是 计算 块 Cj 时 A 的 每 个 块 和 8 的 每 个 块 需要 
的 存储 空间 。 





图 14-5 矩阵 乘法 需要 的 存储 空间 


如 果 将 通信 和 留 在 最 外 层 循环 之 内 ， 我 们 得 到 非常 适度 的 存储 空间 需求 ， 如 下 面 的 代码 所 示 : 


! 基于 资源 的 放置 
DOK=1,n*4!2=N 

kP = CEIL(K / n) - 1 
kloc = MOD(K ~ 1, n) + 1 
sR = MOD(myR + kP, 4); SC = MOD(myC + kP, 4) 
rR = MOD(myR - kP, 4); rC = MOD(myC - kp, 4) 
IF (sR /= myR) SEND((sR, myC), B(kloc, 1:n), n) 
IF (sC /= myC) SEND((myR, sC), A(l:n, kloc), n) 
IF (rR /= myR) THEN 


kR=n+1 
RECV((rR, myC), BCKR, 1:n), n) 
ELSE 
kR = kloc 
ENDIF 
IF (rC /= myC) THEN 
kC =n+1 
RECV((myR, rC), AC1:n, kC), n) 
ELSE 
kC = kloc 
ENDIF 
DO J=1,n 
DOIT=1,n 
C(I, J) = CCI, J) + ACT, kC) * B(kR, J) 
ENDDO 
723 ENDDO 
724 ENDDO 





这 个 方案 需要 的 存储 空间 是 非常 小 的 


每 个 处 理 器 只 需要 2n 个 额外 的 存储 单元 。 这 些 单 


元 是 被 分 配 到 数组 A 的 第 n 十 1 列 和 数组 6 的 第 n+1 行 。 这 个 数量 的 存储 单元 比 局 部 数组 要 求 的 
372 个 存储 单元 小 得 多 。 所 以 这 是 通信 插入 的 最 好 位 置 。 但 是 ， 如 果 我 们 对 K- 循 环 进行 如 下 分 


块 ， 可 以 获得 更 好 的 性 能 : 
! 基于 资源 的 放置 
DO kP = 0, 3 
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sR = MOD(myR + kP, 4); sC = MOD(myC + kP, 4) 

rR = MOD(myR - kP, 4); rC = MOD(myC - kp, 4) 

IF (sR /= myR) SEND((sR, myC), B(l:n, 1:n), n * n) 
IF (sC /= myC) SEND((myR, sC), A(l:n, 1:n), n * n) 
IF (rR /= myR) THEN 


kR =n 
RECV ((rR, myC), B(n + 1:n +n, 1:n), n * n) 
ELSE 
kR = 0 
ENDIF 
IF (rC /= myC) THEN 
kC =n 
RECV ((myR, rC), A(l:n, n+ lin + n), n * n) 
ELSE 
kC = 0 
ENDIF 
DOK=1,n 
0D0J=1,n 
DOI=1,n 
C(I, J) = C(I, J) + ACI, k + kC) * B(k + kR, J) 
ENDDO 
ENDDO 
ENDDO 


ENDDO 
在 局 部 存储 之 外 ， 这 个 例子 要 求 两 个 额外 的 存储 块 ， 每 块 的 大 小 是 它 。 结 果 通 信 需 要 的 存 
储 大 约 是 局 部 存储 的 203。 应 该 指出 ， 在 许多 并 行 系统 上 这 个 程序 是 实现 矩阵 乘法 的 最 优 方式 。 
归结 起 来 ， 一 个 HPF 编 译 器 必须 分 析 一 个 循环 做 套 中 每 一 种 通信 安排 所 要 求 的 缓冲 区 资 
源 。 然 后 ， 应 该 选择 需要 的 存储 空间 不 超过 局 部 变量 所 需 存储 空间 的 安排 。 在 一 些 例子 中 ， 
可 以 使 用 循环 分 段 技术 减少 通信 频 度 ， 其 代价 是 需要 不 超 限 定 的 某 些 存储 空间 ， 如 前 面 的 例 
子 所 示 。 
14.4.7 ”处理 多 个 维 
我 们 以 两 维 通信 的 讨论 作为 本 节 的 结束 。 假 设 给 定 循环 


REAL A(1000，1000) B(1000, 1000) 
'HPF$ DISTRIBUTE A(BLOCK, BLOCK), B(BLOCK, BLOCK) 


DO J=1, M 


DO I=1,N 
A(1 +1, 0+ 1) = BCI, J +1) + BCI +1, J) 
ENDDO 
ENDDO 
并 假定 我 们 有 100 个 处 理 器 ， 排 列 成 一 个 10 x 10 的 网 格 。 按 照 与 前 面 例子 类 似 的 处 理 ， 对 内 层 
循环 生成 看 起 来 可 能 像 下 面 形式 的 代码 : 
ilo= 1 
IF (myR == 0) ilo = 2 
ihi = 100 


itastP = CEIL((N + 1) / 100) - 1 
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IF (myR == ilastP) ihi = MOD(N, 100) + 1 
IF (ilo == 1) THEN 

RECV((myR - 1, myC), B(0, J +1), 1) 
ENDIF 
DO i = ilo, ihi 

A(i, J+ 1) = BCi - 1, J +1) + BCi, J) 
ENDDO 
IF (myR /= ilastP) & 

SEND((myR + 1, myC), B(100, J + 1), 1) 


如 果 我 们 对 外 层 循环 进行 同样 的 处 理 ， 在 适当 的 地 方 实施 分 布 ， 我 们 得 到 


! 计算 局 部 循环 的 上 下 办 
jlo = 1 

IF (myC == 0) jlo = 2 
jhi = 100 


jlastP = CEIL((M + 1) / 100) - 1 
IF (myC == jlastP) jhi = MOD(M + 1, 100) + 1 


ilo = 1 
IF (myR == 0) ilo = 2 
ihi = 100 


ilastP = CEIL((N + 1) / 100) - 1 
IF (myR == ilastP) ihi = MOD(N + 1, 100) + 1 
! 接收 数据 
IF (jlo == 1) THEN 
DO i = ilo, ihi 
RECV((myR, myC - 1), BCi, 0), 1) 
ENDDO 
ENDIF 
IF (ilo == 1) THEN 
DO j = jlo, jhi 
RECV({myR - 1, myC), B(0, j), 1) 
ENDDO 
ENDIF 
! 计算 
DO j = jlo, jhi 
DO i = ilo, ihi 
Ali, j) =BG - 1, j) + Bi, j - 1) 
ENDDO 
ENDDO 
! 发 送 数据 
IF (myR /= ilastP) THEN 
DO j = jlo, jhi 
SEND((myR + 1, myC), B(100, j), 1) 
ENDDO 
ENDIF 
IF (myC /= -jlastP) THEN 
DO i = ilo, ihi 
SEND((myR, myC + 1), BCH, 100), 1) 
ENDDO 
ENDIF 


R14 Ë 
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RATE BB PE TORE BI, BURA TORE, OA. R 
变 成 
! 计算 局 部 循环 的 上 下 界 


jlo= 1 
IF (myC == 0) jlo = 2 
jhi = 100 


jlastP = CEIL((M + 1) / 100) - 1 
IF (myC == jlastP) jhi = MOD(M, 100) + 1 
nJ = jhi - jlo + 1 


ilo= 1 
IF (myR == 0) ilo = 2 727 
ihi = 100 


ilastP = CEIL((N + 1) / 100) ~- 1 
IF (myR == ilastP) ihi = MOD(N, 100) + 1 
nI = ihi - ilo + 1 
! 发 送 数据 
IF (myR /= ilastP) THEN 
SEND((myR + 1, myC), B(100, jlo:jhi), nJ) 
ENDIF 
IF (myC /= jlastP) THEN 
SEND((myR, myC + 1), BCilo:ihi, 100), n1) 
ENDIF 
! 计算 
DO j = MAX(2, jlo), jhi 
DO i = MAX(2, ilo), ihi 
AG, j) = B(G - 1, j) + Bi, jg - 1) 
ENDDO 
ENDDO 
! 接收 数据 和 计算 
IF (jlo == 1) THEN 
RECV({myR, myC - 1), BCilo:ihi, 0), nI) 
DO i = MAX(2, ilo), ihi 
A(i, 1) = B(i - 1, 1) + BCi, 0 
ENDDO 
ENDIF 
IF (ilo == 1) THEN 
RECV((myR - 1, myC), B(0, jlo:jhi), nJ) 
DO j = jlo, jhi 
AC], j) = B(0, j) + B(1, j - 1) 
ENDDO 
ENDIF 


注意 在 最 后 这 个 版 本 中 ， 我 们 已 经 将 依赖 于 从 其 他 处 理 器 上 接收 数据 的 计算 的 执行 剥离 
出 来 ， 所 以 允许 将 通信 和 只 包含 计算 的 循环 重合 起 来。 
14.5 HPF 的 过 程 间 优化 
虽然 HPF 编 译 器 可 以 从 许多 过 程 间 分 析 和 优化 技术 中 获得 好 处 ， 但 其 中 的 两 个 处 理 技术 
是 特别 重要 的 。 首 先 ， 如 同 我 们 早先 提 到 的 ， 实 施 过 程 间 的 数据 分 布 信息 的 追踪 ， 以 尽力 保 
证 在 程序 中 的 每 一 点 只 有 一 个 到 达 的 数据 分 布 模式 。 在 那些 数据 分 布 模式 在 编译 时 刻 已 知 的 
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程序 点 ， 由 于 不 需要 进行 运行 时 的 测试 ， 所 以 可 以 生成 非常 高 效 的 代码 。 

到 达 分 布 模式 的 问题 可 以 归结 为 一 个 与 过 程 间 常数 传播 的 直接 模拟 。 在 这 个 抽象 过 程 中 ， 
已 知 的 分 布 模式 作为 常数 值 ， 而 变量 就 是 与 分 布 数 组 相关 联 的 未 知 的 分 布 模式 。 如 同 在 常数 
传播 中 一 样 ， 过 程 克隆 技术 可 以 被 用 来 减少 到 达 一 个 给 定 的 子 程序 的 不 同 分 布 模式 个 数 。 如 
果 两 个 不 同 的 调用 链 会 向 同一 个 过 程 传送 不 同 的 分 布 模式 ， 则 将 这 个 过 程 克 隆 为 两 个 拷贝 ， 
每 个 调用 链 对 应 一 个 拷贝 ， 消 除 不 确定 性 。 

第 二 个 重要 的 过 程 间 变换 是 通信 生成 。 考 虑 下 面 的 循环 : 

!HPFS$ ALIGN A(I, J), B(I, J) WITH T(I, J) 

!HPF$ DISTRIBUTE T(BLOCK, *) ONTO P(16) 


DOJ=1,N 
CAT] SUB(A(*, J), B(*, J)) 
ENDDO 


SUBROUTINE SUB(X, Y) 
IHPF$ INHERIT X, Y; 
DIMENSION X(*), Y(*) 
DO I = LBOUND(X), UBOUND(X) 
X(I)=Y(I+1)+C 
ENDDO 
END 


在 这 段 代 码 中 , ERIE BRD Ai N RE TEEF A X ALY FEO AY a RI] RA BLOCK ARA Ai o 
但 是 ， 分 布 的 数组 包含 了 一 个 与 I- 循 环 相关 的 通信 需求 。 这 个 通信 可 以 被 移动 到 循环 之 外 。 
但 是 ， 对 于 大 多 数 高 效 的 操作 ， 我 们 应 该 将 通信 移动 到 子 程序 调用 之 外 ， 在 那里 这 个 通信 可 
以 被 向 量化 。 这 种 形式 的 变换 技术 称 为 过 程 间 通 信 优 化 。 


14.6 小 结 

我 们 已 经 证 明 本 书 前 面 提出 的 那些 原理 对 于 编译 和 优化 高 性 能 Fortran (HPF) 是 有 效 的 。 
基本 的 编译 算法 由 以 下 的 内 容 组 成 : 

(1) 分 布 分 析 和 传播 

(2) 迭代 的 划分 


(3) 通信 生成 

很 多 优化 技术 可 以 提高 由 编译 器 生成 的 通信 的 性 能 ， 且 保证 不 会 违反 资源 的 限制 。 这 些 
优化 技术 包括 通信 向 量化 ， 通 信和 计算 的 重合 ， 对 齐 和 复制 ,流水线 ， 轨 约 识别 ,以 及 存储 
分 析 和 管理 。 


14.7 实例 研究 

本 书 的 作者 曾经 参加 了 两 个 具有 HPF 语 言 特征 的 编译 系统 的 实现 。 由 Hiranandani，Kennedy 
和 Tseng 领 导 的 最 初 的 Fortran D 编 译 器 项 目 [149，150，151] 实 现 了 本 章 中 介绍 的 大 多 数 分 布 
特性 ,包括 根据 拥有 者 计算 原则 实施 计算 划分 、 通 信 设 置 和 特殊 情形 的 识别 (例如 归 约 识别 )。 
主要 的 优化 工作 是 关注 于 提高 通信 的 性 能 。 该 项 目 使 用 了 通信 向 量化 ， 计 算 和 通信 的 重 登 ， 
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以 及 粗 粒度 流水 技术 。 对 包括 线性 代数 和 松弛 计算 这 样 几 个 核心 程序 和 小 型 应 用 程序 的 试验 ， 
说 明 这 种 方法 是 有 前 途 的 。 表 14-1 总 结 用 于 试验 的 核心 程序 和 应 用 程序 。 前 三 行 是 众所周知 
的 核心 程序 ， 包 括 一 个 求 和 归 约 和 两 个 模板 核心 程序 。 其 后 的 两 行 是 需要 通过 流水 线 获 得 更 
高 并 行 性 的 核心 程序 。 最 后 有 四 个 应 用 程序 ， 包 括 一 个 高 斯 消去 法 基准 测试 程序 和 一 个 简单 
的 浅水 气候 模型 。 

表 14-1 HPF 核 心 程序 和 应 用 程序 


程 序 名 程序 类 型 数据 大 小 
Livermore 3: Inner Product 归 约 核心 程序 1024k 
Jacobi Iteration 核心 程序 2k x 2k 
Livermore 18: Explicit 核心 程序 l 512 $12 
Hydrodynamics 
Successive Over Relaxation 流水 线 核心 程序 2k x 2k 
Livermore 23: Implicit 流水 线 核 心 程序 1k x 1k 
Hydrodynamics 
Shallow 应 用 程序 lk x 1k 
Disper 应 用 程序 256x8x8x4 
DGEFA 线性 代数 基准 测试 程序 2k x 2k 
Erlebacher 应 用 程序 128 x 128 x 128 


所 有 的 性 能 测量 都 是 在 一 个 有 32 个 处 理 器 的 Intel] iPSC 860 上 进行 的 。HPF 编 译 器 版 本 是 
从 Fortran DD 编译 器 发 展 而 来 ， 结 果 程 序 的 运行 时 间 是 与 使 用 Intel 通 信和 库 开发 的 手写 消息 传递 
版 本 的 程序 相 比 较 (图 14-6)。 加 速 比 超过 了 程序 串 行 执行 时 间 。 在 一 些 例 子 中 得 到 了 超 线 性 
加 速 比 ， 这 是 因为 并 行 版 本 的 程序 适合 于 一 个 单独 的 处 理 器 的 高 速 缓 存 。 在 流水 核心 程序 中 ， 
Fortran D 编 译 器 (产生 的 代码 ) 胜 过 了 手写 版 本 的 程序 ， 这 可 能 是 由 于 i860 节 点 编译 器 的 异 
常 行为 。Tseng 的 学 位 论文 报告 了 这 个 研究 中 得 到 的 实验 结果 的 细节 [262]。 

虽然 实验 被 限定 在 相对 较 小 的 程序 上 ， 这 些 结果 表明 一 个 好 的 编译 器 可 以 为 HPF 程 序 生 
成 代码 ， 使 这 个 代码 的 性 能 与 手工 使 用 消息 传递 库 开发 的 代码 性 能 相当 。 结 果 ，Fortran D 的 
成 功 对 于 早期 的 商用 编译 器 项 目 有 着 重要 的 影响 。 

在 20 世 纪 90 年 代 中 期 ， 被 称 为 4HPF 的 第 二 个 实现 HPF 的 项 目 是 在 Rice 大 学 发 起 的 ， 由 
John Mellor-Crummey 和 Vikram Adve 领 导 。 这 个 项 目 试图 借助 使 用 更 积极 的 策略 实现 计算 划分 
和 通信 的 优化 ， 从 而 克服 Fortran D 和 商用 HPF 编 译 器 的 限制 。 在 原来 的 Fortran D 工 作 的 基础 
上 作 了 两 个 重要 的 改进 。 首 先 ， 拥 有 者 计算 原则 被 放松 ， 人 允许 使 通信 达到 最 小 化 的 计算 划分 。 
这 种 方法 与 14.4.3 节 中 讨论 的 对 齐 策略 类 似 。 第 二 , 这 个 项 目 实现 了 贯穿 本 章 讨论 的 集合 操作 ， 
其 中 使 用 了 由 Maryland 大 学 开发 的 Omega 系统 [166，228]。 这 个 系统 提供 了 一 种 便利 的 方法 ， 
实现 HPF 要 求 的 索引 集 分 裂 操 作 。 当 与 对 齐 结合 使 用 时 ， 这 种 方法 允许 使 用 计算 的 部 分 重复 
而 减少 通信 代价 。Omega 也 被 用 于 代码 生成 ， 因 为 它 可 以 生成 循环 集合 ， 处 理 所 有 和 集合 分 析 
需要 的 特殊 情形 。 实 验 显 示 出 这 些 改进 在 处 理 真 实 代码 时 获得 了 很 好 的 回报 。 特 别 ， 对 于 编 
码 风格 没有 对 编译 器 的 能 力 和 缺点 让 步 的 NAS 并 行 基准 测试 程序 SP 和 BT，HPF 编 译 器 生成 程 
序 的 性 能 可 以 得 到 由 NAS 手 工 开发 的 程序 的 性 能 90% 以 上 [73]。 
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图 14-6 HPF 核 心 程序 和 应 用 程序 与 手写 程序 性 能 对 比 
14.8 历史 评述 与 参考 文献 


HPF 语 言 的 根基 是 Rice 大 学 开发 的 Fortran D 项 目 [115] 和 Vienna 大 学 开发 的 Vienna Fortran 
项 目 [71，289]。 这 两 个 项 目 是 基于 分 布 计算 的 编译 系统 中 最 常见 的 系统 。 高 性 能 Fortran 自 身 
在 几 年 后 由 Kennedy 领 导 的 高 性 能 Fortran 论 坛 标准 化 [146，147]。 

许多 研究 者 已 经 发 表 了 关于 分 布 式 存储 的 编译 技术 的 文章 ， 这 些 编译 技术 是 基于 分 布 说 
明 的 。 两 篇 最 早 的 关于 分 布 式 存储 策略 编译 技术 的 文章 分 别 由 Callahan 和 Kennedy[60] 及 Zima， 
Bast 和 Gerndt[288] 发 表 。 本 章 是 基于 Hiranandani，Kennedy 和 Tseng 的 工作 的 ， 他 们 在 Rice 大 
学 发 布 了 一 个 实验 性 的 HPF 编 译 器 [149，150，151]。 一 些 重要 的 编译 策略 也 是 由 Hatcher， 
Quinn 等 人 [140]， Koelbel 和 Mehrotra[187] 及 Rogers 和 Pingali[235] 给 出 的 。 由 Fox 领 导 的 一 个 
小 组 发 展 了 另 一 种 HPF 实 现 策略 ， 基 于 广泛 使 用 包 通信 (packaged communication ) 和 计算 库 
[42]。 最 近 ， 由 John Mellor-Crummey 和 Vikram Adve 领 导 的 Rice 大 学 的 dHPF 计 划 采 用 了 更 加 
主动 的 优化 策略 [8，7]， 这 些 策 略 是 构建 在 强 有 力 的 整数 集合 处 理 软件 基础 上 的 ， 这 个 软件 是 
Maryland 大 学 的 Pugh 及 其 同事 开发 的 [166，228]。 Kennedy 和 Sethi 开 发 了 此 处 给 出 的 基于 资源 
的 通信 安排 方法 [181]。 
习题 

14.1 与 对 串 行 Fortran 程 序 的 编译 相 比 ， 编 译 器 为 一 个 HPF 程 序 生成 代码 需要 哪些 额外 的 
BR? 

14.2 如 果 下 面 的 程序 在 一 个 4 处 理 器 的 机 器 上 执行 ， 计 算 每 个 处 理 器 通信 的 总 字 节 数 。 你 
能 够 改写 数据 分 布 方式 ， 以 使 得 本 程序 没有 通信 吗 ? 


REAL A(N), B(N) 
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'HPF$ TEMPLATE T(N) 
'HPF$ ALIGN ACI) WITH T(I) 
'HPF$ ALIGN BCI) WITH T(I) 
'HPF$ DISTRIBUTE T(BLOCK) 
bOIT=1,N-1 

A(T) = B(I + 1) 
ENDDO 
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14.3 如 果 下 面 的 程序 在 一 个 4 处 理 器 的 机 器 上 执行 ， 计 算 每 个 处 理 器 通信 的 总 字 节 数 。 假 
设 数据 分 布 的 方式 已 选 定 ， 你 能 够 给 出 另外 一 种 方法 使 得 迭代 的 划分 是 均匀 的 而 通信 量 减少 


一 半 吗 ? 
REAL A(N), B(N) 
!HPF$ TEMPLATE T(N) 
1HPF$ ALIGN ACI) WITH T(I) 
'HPF$ ALIGN B(I) WITH TCI) 
'HPF$ DISTRIBUTE T(BLOCK) 
DOI=1,N-1 

A(I)= ACI + 1) + BCI + 1) 

ENDDO 


14.4 当下 面 的 循环 嵌 套 在 4 个 处 理 器 上 执行 时 ， 通 信 消 息 的 次 数 是 多 少 ? 你 能 够 改写 该 程 
序 把 消息 的 次 数 减 少 到 原来 的 一 半 吗 ? 你 能 够 将 总 的 消息 次 数 减 少 到 3 次 吗 ? 你 的 优化 导致 了 


任何 负面 效果 吗 ? 


REAL A(N, N) 
'HPF$ TEMPLATE T(N, N) 
!HPF$ ALIGN ACI, J) WITH T(I, J) 
'HPF$ DISTRIBUTE T(*, BLOCK) 
DO I=1,N 
DOJ=1,N-1 
ACI, J) = ACI - 1, J) + 1.0 
ENDDO 
ENDDO 


14.5 (承接 上 一 个 问题 ) 减少 消息 次 数 的 方法 是 对 I- 循 环 展开 (展开 次 数 由 k 因 子 决定 )， 
并 和 Jy- 循环 交 换 ， 如 下 面 的 程序 所 示 。 这 种 变换 称 为 粗 粒 度 的 流水 变换 。 这 种 变换 总 是 合法 


的 吗 ? (提示 : 这 种 变换 遵循 与 展开 与 压 紧 一 样 的 合法 性 条 件 。) 


REAL A(N, N) 
'HPF$ TEMPLATE T(N, N) 
!HPF$ ALIGN ACI, J) WITH T(I, J) 
'HPF$ DISTRIBUTE T(*, BLOCK) 
DO II = 1, N, K 
00J=1,N-1 
DO0OI=II，II+K-1 
ACI, J) = ACI - 1, J) + 1.0 
ENDDO 
ENDDO 
ENDDO 


14.6 编程 实习 ”对 习题 14.4 和 14.5 中 的 例子 生成 使 用 PVM 或 MPI 的 并 行 代码 。 


流水 线 变换 获得 的 性 能 。 你 能 够 给 出 最 优 的 循环 展开 因子 吗 ? 测试 你 的 方法 。 


评估 粗 粒度 


~ 
w 
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在 本 附录 中 我 们 对 Fortran 90 (以 及 较 新 的 标准 Fortran 95) 的 特征 提供 一 个 简要 的 介绍 ， 
它们 关系 到 理解 本 书 的 内 容 。 此 介绍 仅 是 语言 特性 的 很 小 子 集 。 有 兴趣 的 读者 可 以 参考 在 附 
录 末 尾 “ 补 充 读物 ”中 列举 的 文献 ， 了 解 更 多 的 语言 特性 。 


Fortran 90 引 入 了 称 为 自由 源码 形式 的 新 词法 输入 格式 ， 在 这 种 形式 中 老 的 面向 列 的 形式 
被 面向 行 的 形式 所 替代 ， 它 允许 在 一 行 上 有 多 个 语句 。 因 为 本 书 全 部 使 用 自由 源码 形式 ， 我 
们 集中 关注 对 于 理解 正文 最 相关 的 特征 。 

如 同 在 老 的 形式 中 一 样 ， 假 设 语句 是 由 行 的 结尾 终止 的 。 但 是 如 果 行 中 包含 一 个 不 在 注 
释 中 的 & 符 号 ， 则 语句 在 下 一 行 上 继续 。 如 果 关 键 字 或 字符 串 被 跨行 分 开 ， 那 么 续 行 的 开始 
必须 也 是 一 个 && 符 号 。 

多 个 语句 可 以 出 现在 一 行 中 ， 它 们 用 分 号 (; ) 隔 开 。 在 一 行 结 尾 前 面 的 最 后 一 个 语句 
不 需要 用 分 号 终止 。 

如 果 惊 叹 号 (! ) 出 现在 带 引 号 的 字符 串 或 其 他 注释 外 则 惊叹 号 用 于 开始 注释 行 。 

空白 符 是 有 意义 的 ， 并 且 不 能 出 现在 关键 字 、 名 字 或 数 中 。 例 外 情况 是 关键 字 本 身 确实 
是 由 多 个 字 组 成 的 短语 ， 如 “END DO”. 

与 以 前 的 Fortran 版 本 一 样 ， 标 号 是 数字 型 的 ， 但 是 它们 可 以 出 现在 语句 前 的 任何 地 方 ， 
甚至 在 第 6 列 之 后 。 另 外 ， 可 以 用 结构 名 去 标记 一 个 结构 ， 如 00- 循 环 。 结 构 名 是 一 个 变量 后 
面 跟 一 个 冒号 。 结构 名 在 同一 程序 中 不 可 以 用 作 变 量 名 。 结构 名 可 以 用 在 EXIT 和 CYCLE 语句 中 ， 
作为 特定 结构 的 出 口 ， 或 在 循环 的 情况 下 ， 转 到 结构 的 下 一 次 迭代 。 

Fortran 90 引 入 新 的 比较 操作 符 (==, /=, <, >, <= , =) 用 于 替代 老 的 带 点 的 相应 记 法 。 

下 面 的 例子 说 明 其 中 的 某 些 概念 : 

PROGRAM MAIN 
REAL A(10000), B(10000) & 
C€(10000,10000) ! this is the big data array 
CALL GETDATA(A,B,C);CALL CHECKDATA(A,B,C) 
OUTER: DO I = 1, 10000 


INNER: DO J = 1, 10000 
IF(A(J) == 0.0) EXIT OUTER 
50 C(I,J) = C(I,J) + ACT) * BCU) 


END DO INNER 
END DO OUTER 
CALL WRITEDATA(C) 
END PROGRAM 





~ 
loa) 


~ 
~ 
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数组 赋值 

因为 Fortran 90 的 主要 目的 之 一 是 提供 对 向 量 和 并 行 硬 件 的 支持 ， 很 自然 需要 Fortran 90 包 
含 向 量 和 并 行 操作 。 实 现 的 一 种 方法 是 将 向 量 和 数组 作为 赋值 语句 中 的 诊 合 处 理 。 如 果 X 和 Y 
是 两 个 同 维 数组 ， 则 

X=Y 
一 个 元 素 接 一 个 元 素 地 将 Y 复 制 到 X 中 ， 此 赋值 等 价 于 语句 序列 

X(1) = YG) 


X(2) = Y(2) 

XCN) = YON) 

使 用 下 面 的 约定 标量 值 可 以 与 向 量 值 混 用 ， 即 在 实行 运算 前 将 标量 扩展 为 相应 维 数 的 向 
量 。 这 样 ， 

X=X+5.0 


将 常数 5.0 加 到 数组 X 的 每 个 元 素 上 。 

在 Fortran 90 中 数组 赋值 是 看 作为 同时 执行 的 ; 即 必 须 将 赋值 处 理 成 使 得 所 有 输入 操作 数 
的 取 值 是 在 任何 存 人 输出 值 之 前 。 例 如 ， 考 虑 

X = X/X(2) 

即使 X(2) 的 值 被 该 语句 改变 ， 也 要 始终 使 用 X(2) 的 原始 值 ， 这 样 结 果 如 同 

T = X(2) 

X(1) = X(1)/T 

X(2) = X(2)/T 

X(N) = X(N)/T 

此 语义 与 1.3 节 介绍 的 向 量 硬件 语义 相 匹配 ， 只 是 向 量 长 度 是 无 界 的 。 
三 元 组 记 法 

数组 片断 ， 包 括 单独 的 行 和 列 ， 可 以 用 三 元 组 记 法 来 指定 。 在 Fortran 90 中 ， 用 冒号 分 开 
的 三 个 整 型 表达 式 的 三 元 组 可 以 用 在 任何 数组 赋值 的 下 标 中 。 三 元 组 的 成 份 是 

(initial: final: stride) 

Sk of A aes Rinita a RL CMOS — Ph bm, finata ARH AUT — A Fi 
stride 指 明 下 标 增 量 。 在 大 多 数 常见 用 法 中 ， 最 后 一 个 冒号 和 路 距 (stride) 是 省 略 的 ， 此 时 增 
量 默认 为 1。 

三 元 组 记 法 可 以 用 例子 做 最 好 的 解释 。 例 如 ， 如 果 A 和 8 是 100 x10048, W 

A(1:100,1) = B(J,1:100) 
将 6 的 第 J 行 赋 给 A 的 第 I 列 。 此 时 由 于 是 赋值 一 整 行 或 整 列 ， 我 们 可 以 省 略 初 始 和 终止 下 标 表 
达 式 ， 这 时 默认 为 声明 的 界 。 这 样 

A(:,I) = B(J,:) 
与 前 面 的 例子 有 相同 的 效果 。 当 向 量 运 算 的 迭代 区 域 小 于 整个 行 或 列 时 三 元 组 记 法 的 实际 价 
值 就 显现 出 来 了 。 下 面 的 赋值 可 用 来 将 8 的 第 J 行 的 前 MM 个 元 素 赋 给 A 的 第 I 列 的 前 M 个 元 素 。 
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A(1:M,I) = B(J,1:M) 


此 语句 具有 下 列 赋值 语句 的 作用 : 
A(1,I) = B(J,1) 
A(2,1) = B(J,2) 


A(M,I) = B(J,M) 
其 中 M 的 值 可 以 比 它 出 现 的 那 一 维 的 数组 的 实际 上 界 小 得 多 。 

出 现 第 三 个 成 分 时 ， 指 明 在 该 下 标 位 置 中 索引 向 量 的 “ 跨 距 ”(stride )。 例 如 ， 可 以 用 下 
述 语 句 将 B 的 第 J 行 的 前 M 个 元 素 赋 给 A 的 第 I 列 在 奇数 下 标 位 置 上 的 前 M 个 元 素 : 

A(1:M*2-1:2,I) = B(J,1:M) 

在 处 理 含有 移 位 片断 运算 时 三 元 组 记 法 也 是 有 用 的 。 赋 值 语 句 

ACI,1:M) = B(1:M,J) + C(I,3:M+2) 
有 下 述 语 名 的 作用 : 

A(I,1) = B(1,J) + C(I,3) 

A(I,2) = B(2,J) + C(I,4) 


ACI,M) = B(M,J) + C(I,M+2) 738 


RFRA 

Fortran WHERE 语 句 允许 一 个 数组 赋值 受 一 个 条 件 掩 码 数 组 控制 。 例 如 ， 

WHERE (A<0.0) A=A+B 
指明 构成 A 和 B 的 向 量 和 ， 但 是 回 存 到 A 的 元 素 只 是 A 中 相应 位 置 原始 值 小 于 零 的 元 素 。 此 语句 
的 语义 要 求 它 的 行为 就 像 仅 对 相应 控制 条 件 位 置 为 真 的 成 分 才 进 行 计 算 。 

语句 的 特例 如 

WHERE (A/=0.0) B = B/A 
此 处 的 语义 要 求 作为 右边 计算 结果 产生 的 除法 检查 不 影响 程序 行为 ; 代码 必须 向 用 户 隐蔽 此 
种 错误 。 换 名 话说 ， 忽 略 控制 向 量 为 假 的 位 置 上 右 端 计算 结果 可 能 出 现 的 错误 的 副作用 。 


多 维 数 组 赋值 

Fortran 90 人 允许 整个 矩阵 甚至 大 维 数组 在 一 个 语句 中 赋值 。 例 如 ， 

AC1:N,1:M) = AC1:N,1:M)/X(1:N,1:M) 
A 的 1 到 N 行 和 1 到 M 列 的 每 个 元 素 除 以 X 的 相应 元 素 并 把 结果 回 存 到 A。 按 照 Fortran 90 标 准 ， 像 
这 样 的 数组 赋值 是 合法 的 ， 每 个 数组 在 每 一 维 中 的 子 表达 式 必 须 与 左 端 在 排列 ( 维 数 ) 和 长 
E (大 小 ) 匹配 。 上 面 例 子 的 各 维 从 左 到 右 总 是 匹配 的 ， 所 以 

AC1:N,1:M) = A(1:N,1:M)/X(1:M,1:N) 
是 非法 的 ， 尽 管 通过 转 置 X 可 以 使 各 维 匹配 。 这 就 要 求 显 式 给 出 转 置 运算 : 

A(1:N,1:M) = AC1:N,1:M)/TRANSPOSE(X(1:M,1:N)) 

标量 可 以 在 数组 赋值 中 自由 使 用 ， 因 为 意图 总 是 清楚 的 。 事 实 上 ， 每 个 标量 自动 扩展 到 
一 个 排列 和 长 度 正 确 的 数组 ， 其 中 每 个 元 素 等 于 原始 的 标量 。 这 样 739 
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A(1:N,1:M) = A(1:N,1:M)/X(1, 1) 
A 的 每 个 元 素 除 以 X(1,1)。 
有 一 些 实例 要 求 写 出 这 样 的 表达 式 ， 其 中 不 同 的 成 分 数组 有 不 同 的 排列 。 例 如 ， 假 设 我 
们 要 求 矩 阵 A 的 每 一 行 被 向 量 X 除 。 则 我 们 需要 使 用 SPREAD 内 部 国 数 去 扩展 向 量 为 两 维 : 
A(1:N,1:M) = AC1:N,1:M)/SPREAD(X(1:M),1,N) 
内 部 函数 SPREAD 复 制 N 个 向 量 X(1:M) 产 生 一 个 适当 大 小 的 矩阵 ， 和 矩阵 的 每 行 是 原始 X 的 找 贝 。 
如 果 需 要 复制 到 列 ， 则 SPREAD 的 第 二 个 参数 是 2。 


分 散 运算 和 聚集 运算 

Fortran 90 允 许 在 下 标 位 置 中 使 用 索引 数组 。 例 如 ， 

AC1:N) = A(1:N) + B(IX(1:N)) 
取向 量 IX 并 用 它 的 元 素 去 选择 用 在 向 量 表达 式 中 使 用 的 B 的 元 素 。 
FORALL 语句 

虽然 在 最 后 一 刻 将 它 从 Fortran 90 标 准 中 删除 了 ，Fortran 95 标 准 提 供 了 一 种 称 为 FORALL 的 
特殊 的 向 量 运算 。 因 为 这 对 于 表示 不 寻常 的 向 量 概念 是 一 个 有 用 的 结构 ， 我 们 将 它 包 括 在 这 
里 。FORALL 语 句 有 两 种 形式 。 第 一 种 形式 在 一 行 上 包含 单个 语句 : 

FORALL (I = 1,N) ACI) = BCI) + C(I) 
第 二 种 形式 看 上 去 像 一 个 包含 有 一 个 或 多 个 Fortran 90 语 句 的 循环 。 例 如 ， 

FORALL (I = 1,N) 

ACI) = BCI) + C(I) 

END FORALL 

FORALL 语 句 解释 为 一 个 向 量 赋值 语句 ，FORALL 语 句 中 的 索引 指出 向 量 返 代 的 维 。 这 样 ， 
上 面 的 FORALL 例 子 与 下 述 简 单数 组 赋值 有 相同 的 含义 : ' 

ACI: N) = B(1;N) + C(1:N) 
因为 FORALL 语 名 有 相同 的 含义 ， 这 意味 着 它 的 行为 必须 在 存 人 任何 值 之 前 从 存储 器 中 取出 右 
边 使 用 的 所 有 量 的 值 。 所 以 

FORALL (I = 1,N) ACI) = BCI) / A(2) 
对 循环 的 每 次 选 代 使 用 A(2) 的 老 值 。 

思 今 为 止 的 例子 没有 提供 不 利用 带 三 元 组 记 法 的 数组 赋值 的 功能 。 但 是 FORALL 语 句 可 以 
写 出 某 些 向 量 语句 ， 它 不 能 用 简单 的 三 元 组 记 法 表示 。 例 如 ， 假 设 我 们 想 要 将 向 量 8 赋 给 矩阵 
A 的 对 角 线 元 素 。 它 可 用 下 面 FORALL 语 句 完成 : 

FORALL (I = 1,N) A(I,I) = BCI) 

虽然 写 一 个 复杂 的 条 件 赋值 语句 可 能 得 到 相同 的 效果 ,但 是 那 种 语句 的 性 能 将 不 会 很 好 。 
因此 ， 对 于 写 有 技巧 性 的 向 量 赋值 ，FORALL 语 句 是 有 用 的 方法 ， 对 向 量化 编译 器 的 输出 也 是 
有 用 的 。 

最 后 一 个 例子 显示 出 FORALL 语 名 可 以 如 何 写 成 另外 的 结构 ， 它 不 用 FORALL 语 句 是 很 难 应 
付 的 。 下 面 的 循环 是 矩阵 A 的 行 乘 矩 阵 8 的 列 : 


FORALL (I = 1,N) A(I,1:N) = A(I,1:N)*B(1:N,I) 
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车 不 用 FORALL 表 示 ， 你 就 需要 写 出 
AC1:N,1:N) = A(1:N,1:N) * TRANSPOSE(B(1:N,1:N)) 
它 足 够 清楚 ， 但 是 如 果 Fortran 90 编 译 器 不 能 识别 转 置 能 够 用 索引 交换 来 替代 ， 就 可 能 产生 不 


库 函 数 

数学 库 函 数 ， 如 SQRT 和 SIN， 以 元 素 为 基础 扩展 到 向 量 和 数组 。 另 外 ， 提 供 新 的 内 部 函数 ， 
ANERER (DOTPRODUCT) 和 转 置 (TRANSP0SE )。 特 别 函 数 SEQ(1,N) 返 回 从 1 到 N 的 索引 向 量 。 
也 提供 归 约 函数 (类 似 在 APL 中 )。 例 如 ，SUM 应 用 于 一 个 向 量 上 ， 返 回 向 量 中 所 有 元 素 的 和 ， 
而 PRODUCT 返 回 这 些 元 素 值 的 乘积 。 . 

Fortran 90 还 包括 一 些 有 用 的 数组 运算 。 循 环 移 位 CSHIFT 可 用 来 实行 数组 任何 维 中 的 循环 
移 位 ， 而 截 尾 移 位 E0SHIFT 移 位 并 截 尾数 组 ， 用 指定 的 边界 值 填充 空位 。 最 后 MAXL0C 和 
MINL0OC 返 回 值 分 别 是 一 个 数组 的 最 大 值 和 最 小 值 的 位 置 ， 即 按 大 小 等 于 自 变 量 数组 的 一 维 数 
组 形式 中 的 元 素 顺 序 。 

Fortran 90 和 95S 库 国 数 的 完整 列表 可 以 在 ISO Fortran 标 准 文 档 中 找到 [157，158]。 


补充 读物 

Fortran 90 和 95 的 补充 读物 ， 我 们 推荐 如 下 : 

(1) 正式 标准 ，ISO 1539:1991, Fortran standard [157], #Fortran 90 特 性 精确 定义 的 最 

(2) 正式 Fortran 95r, ISO/IEC 1539-1:1997, Information Technology-Programming 
Languages-Fortran [158], 4.4 Fortran 95 同 样 的 作用 。 

(3) Adams et al., Fortran Top 90 [3]， 是 专门 讨论 新 语言 特性 的 汇集 。 就 此 而 言 ， 这 是 
一 本 介绍 对 Fortran 77 改 变 的 优秀 导 引 。 

(4) Adams et al., Fortran 90 Handbook [4] 与 Fortran 95 Handbook [5]， 提 供 对 整个 语言 


的 详尽 综述 。 


pa) 
P 
= 
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符号 

和 -test (入 测试 )，120 

中 -functions (ož) 
scalar expansion and (标量 扩展 )，189-190 
SSA and, 149-150, 154-155 
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acyclic mixed-directed graphs ( ARREA Il A) 
defined (422), 437 i 
weight function (42eA XL), 437-438 
acyclic name partitions, prefetch insertion for (无 环 名字 
划分 ， 预 取 插 入 )，501-504 
Ada, 619 
Adve, Vikram, 731 
algorithms (算法 ) 
alignment and replication (对 齐 和 复制 )，251-253 
alignment for reuse (重用 的 对 齐 )，430 
Ardent Titan code generation( Ardent Titan 代码 生成 )， 
314 
bakery counter (面包 店 计数 器 ) 305 
blocking (分 块 )，484 
blocking with skewing ( 带 倾 斜 的 分 块 )，487 
branch relocation (分 支 重 定位 )，331 
chaining vector operations ( 链接 向 量 操作 )，539 
code generation for set of nodes from structured node 
(结构 化 代码 为 结 点 集 的 代码 生成 )，375 
code generation framework with loop selection and 
recurrence breaking ( 带 循环 选择 和 依赖 环 打破 的 代码 
生成 框架 )，182 
code generation from control dependence graphs (从 控 
制 依赖 图 生成 代码 ) 374 
collapse a region into a vertex (区 域 塌 缩 为 顶点 )，442 
complete forward branch removal (完全 前 向 分 支 消 
BR), 336-338 
computing approximate alias sets for formal parameters 
(计算 形式 参数 的 近似 别名 集 )，572 
computing formal parameter pairs that may be aliased 
(计算 可 能 互 为 别名 的 形式 参数 对 )，573 
computing NKILL(p) (计算 NKILL(p))，581 
computing procedure parameter tuples (计算 过 程 参 数 


三 元 组 )，591 

constant propagation (常数 传播 ) 147 

construct and mark binding graph for NKILL (构造 和 
标记 NKILL 的 绑 定 图 ) 582 

constructing reduced control flow graph (构造 简化 的 
控制 流 图 )，580 

constructing RMOD sets (构造 RMOD 集 )，565 
control dependence construction (控制 依赖 构造 )，353 
control dependence splitting (控制 依赖 分 裂 )，373 
dead code elimination ( 死 代码 删除 )，145 

Delta test (Delta 测试 )，112 

dependence testing (依赖 测试 )，79-80，123-125 
determining critical instructions (确定 关键 指令 )，518 
determining locations for 中 -functions (确定 函数 的 位 
置 )，154 

direction and distance vector merging (方向 向 量 和 距 
离 向 量 合并 )，127 

dominance frontier construction (控制 边界 构造 )， 153 
driver for parallelization process (并 行 化 过 程 的 驱动 
程序 )，297 

driver for program transformations (程序 变换 的 驱动 
程序 )，226 

execution variable and guard creation (执行 变量 和 控 
制 条 件 生 成 )，365 

fast combination of side effect and alias information 
(副作用 和 别名 信息 的 快速 结合 )，571 

find minimum-iength kernel in loop with no depen- 
dence cycles (在 没有 依赖 环 的 循环 中 寻找 最 小 长 度 
核心 )，529 

forward branch removal (前 向 分 支 消 除 ) 326 
forward expression substitution (前 向 表达 式 替 换 )，159 
generating preloops and postloops (产生 前 置 循环 和 后 
置 循环 )，434 

generation of aligned and replicated code (生成 对 齐 和 
复制 代码 )，255 l 

greedy weighted fusion ( 贪 禁 加 权 合 并 )，440 
induction-variable recognition (归纳 变量 识别 )，161 
induction-variable substitution (归纳 变量 替换 )，163， 
164 

induction-variable substitution driver ( 归纳 变量 替换 
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驱动 程序 )，164 

initialize path sets (初始 化 path 集 )，441 

initialize predecessors, successors, and neighbors (4) 
kat predecessors, successorsfilneighbors), 441 

input prefetching (4A fH), 664 

algorithms (continued) 

inserting memory references for inconsistent depen- 
dences (插入 不 一 致 依赖 的 存储 访问 )，399 
inversion to compute ALIAS (g) for each global variable 
8 (变形 为 计算 每 个 全 局 变量 8 的 ALIAS(8))，572 
iterative dominators construction ( 选 代 控制 结 点 的 构 
造 )，151 

iterative method for reaching definitions (到 达 定 义 的 
ERE), 144 

kernel scheduling (核心 调度 )，532 

loop fusion for collection of loop. nests (—A PARE 
的 循环 合并 )，294 

loop fusion for collection of loops (一 组 循环 的 循环 合 
并 )，433 

loop interchange for register reuse (寄存 器 重用 的 循环 
交换 )，420 ‘ 

loop normalization (循环 正规 化 )，139 

loop permutation (WW Etk), 475 

loop selection heuristic ( 循环 选择 的 启发 式 方法 )， 
185 

loop selection to implement simple loop-shifting 
interchange (实现 简单 循环 移 位 交换 的 循环 选择 )，183 
loop splitting (循环 分 裂 )，666 

marking vector loops and statements 《标记 向 量 循环 和 
语句 ) 225 

MIV direction vector test (MIV 方向 向 量 测试 )，110 
naive alias update of DMOD to produce MOD 《由 
DMOD 的 简单 别名 更 新 产生 MOD), 569 

naive list scheduling (简单 的 表 调 度 }，517 

node splitting ( 结 点 分 裂 )，204 

parallel code generation (并 行 代码 生成 )，292-297 
parallelizing a loop nest (并 行 化 一 个 循环 媒 套 )，276 
partitioning for array renaming in simple loops (简单 
循环 中 数组 重 命名 的 划分 ) 200 

propagation of global modification side effects (全 局 
修改 副作用 的 传播 )，568 

pruning dependence graphs (依赖 图 前 枝 )，388-389 
recurrence breaking via scalar expansion (通过 标量 扩 
展 打破 依赖 环 )，194 

register pressure moderation (寄存 器 压力 缓解 )，396 
scalar renaming (标量 重 命名 ) 197 


scalar replacement of cyclic set of dependences 《环形 


依赖 集 的 标量 替换 )，399 
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scalar replacement of noncyclic set of dependences (无 
环 依赖 集 的 标量 替换 )，398 

scalar replacement, simple (标量 替换 ， 简 单 的 )， 
397 

scalarization, complete (标量 化 ， 完 全 的 )，679 
scalarization of single vector operation (单个 向 量 操作 
的 标量 化 }，658 

scalarization, revised (标量 化 ， 修 改 后 的 )，669 
scalarization, safe {标量 化 ， 安 全 的 )，659 
selecting a nearby permutation (选择 一 个 接近 的 置 
换 )，288 

selection heuristic with loop skewing ( 带 循环 倾斜 的 
选择 启发 式 方法 ) 283 

selection of transformations (变换 的 选择 )，227 
separable subscript testing (可 分 的 下 标 测 试 )，125 
simplification (简化 )，342 

software prefetching (软件 预 取 )，496-506 
strip-mine-and-interchange (循环 分 段 和 交换 )，481 
subscript partitioning (下 标 划 分 )，80 

substituting, program equivalence and (替代 ， 程 序 
等 价 性 ) 41-42 

trapezoidal Banerjee Inequality evaluation (梯形 
Banerjee 不 等 式 求 值 ) 105 

trapezoidal Banerjee Inequality for direction “=,” ( 方 
向 为 “=” 的 梯形 Banerjee 不 等 式 ) 106 

trapezoidal Banerjee Inequality for direction “<,”( 方 
向 为 “<” 的 梯形 Banerjee 不 等 式 ) 107 

trapezoidal Banerjee Inequality for direction “>,” (77 
向 为 “>” 的 梯形 Banerjee 不 等 式 ) 107 

trapezoidal Banerjee Inequality for direction “*’” (Fj 
向 为 “*” 的 梯形 Banerjee 不 等 式 ) 108 

typed fusion ( 带 类 型 的 合并 ) 262-267 
unroll-and-jam (展开 和 压 紧 )，409 

unrolling to eliminate copies (展开 消除 拷贝 )，400 
update pathFrom sets (更 新 pathFrom 和 集 )，447 

update SSA graph after induction-variable substitution 
(在 归纳 变量 替换 后 更 新 SSA 图 )，164 

update successors (更 新 后 继 结 点 )，443 

vector loop detection (向 量 循 环 检测 )，224 
vectorization, advanced (向 量化 ， 先 进 的 ) 64-69 
vectorization, simple (向 量化 ， 简 单 的 ) 63 


alias analysis (别名 分 析 ) 


alias set (84,4), 551 

flow-insensitive ( 流 不 敏感 的 )，568-573 

problem overview (问题 概述 ) 551 

as propagation problem (传播 问题 )，559 

See also flow-insensitive alias analysis ( 见 流 不 敏感 


的 别名 分 析 ) 
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ALIAS problem. See alias analysis (ALIAS 问 题 ， 见 别名 
分 析 ) 
alias set (别名 集 )，551 
aliasing，C language optimization and (别名 ，C 语 言 优 
{t), 607, 611 
ALIGN directive in HPF (HPF 中 的 ALIGN 制 导 )，691- 
692 
AlignLoops procedure (AlignLoops 过 程 )，430 
alignment. See loop alignment (对 齐 ; 见 loop alignment) 
alignment conflicts ( 对 齐 冲 突 ) 
code replication for (代码 复制 )，249-250 
loop alignment and (循环 对 齐 )，249 
alignment threshold (对 齐 阔 值 ) 
defined (定义 )，426 
loop fusion and (循环 合并 )，426-428 
allocating registers. See register usage enhancement ( 4} 
配 寄 存 器 ， 见 寄存 器 使 用 的 改进 ) 
always blocks (always sk) 
execution ordering and (执行 顺序 )，626-627 
fusing (@}£), 628-632 
vectorizing (向 量化 )，632-637 
AMT DAP, synchronous processor parallelism in (AMT 
DAP， 同 步 的 处 理 器 并 行 性 )，17 
antidependence 〈 反 依赖 ) 
cache management for (高 速 缓存 管理 ) 384 
cache reuse and (高 速 缓存 重用 )，469 
defined (定义 )，38 
loop-carried (循环 -携带 )，85 
loop-independent, vector swap and (循环 无 关 ， 向 量 
交换 )，185 
from loop reversal applied to scalarization (循环 反 转 
应 用 到 标量 化 )，661 
notation (表示 法 )，38 
register allocation and (寄存 器 分 配 )，384 
scalar expansion and (标量 扩展 ), 191, 192 
simple dependence testing and (简单 依赖 测试 )，58- 
59 
weak-zero SIV test and (38-0 SIV Mik), 84-85 
applications, unroll-and-jam with scalar replacement on 
(应 用 ， 带 标量 替换 的 展开 和 压 紧 )，412-415 
Ardent Titan compiler (Ardent Titan 编译 器 ) 
cache management and (高 速 缓存 管理 ) 509 
coarse-grained parallelism case study ( 粗 粒度 并 行 性 
实例 研究 ) 311-315 
codegen procedure and (codegen 过 程 )，70 
dependence testing case study (依赖 测试 实例 研究 )， 
130 
fine-grained parallelism case study ( 细 粒 度 并 行 性 实 
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例 研究 )，234-235 
if-conversion case study (if 转 换 实例 研究 )，376-377 
instruction scheduling case study (指令 调度 实例 研 
究 )，543-546 
interprocedural analysis and optimization case study 
(过 程 间 分 析 和 优化 实例 研究 ) 601-602 
overview (概述 )，32 
PFC project and (PFC 项 目 )，33 
register usage enhancement case study (寄存 器 使 用 改 
进 实例 研究 ) 466 
transformation case study (变换 实例 研究 ) 167-168 
vector unit scheduling case study (向 量 部 件 调 度 实 例 
研究 )，543-546 
vectorization capabilities (向 量化 能 力 )，232-234 
array assignment compilation (数组 赋值 编译 )，655-688 
case studies (实例 研究 )，687 
historical comments and references (历史 评述 与 参考 
文献 )，687-688 
multidimensional scalarization (多 维 标 量化 )，668- 
683 
overview (概述 )，686-687 
postscalarization interchange and fusion (标量 化 后 的 
交换 和 和 合并 )，684-686 
scalarization transformations 标量 化 变换 ) ，660-668 
simple scalarization 【简单 标量 化 ) 656-660 
vector machine considerations (向 量 机 考虑 )，683 
见 scalarization 
array assignment in Fortran 90 (Fortran 90 中 的 数组 赋 
I), 736-741 
conditional assignment (条 件 赋值 )，739 
FORALL statement (FORALL 语句 )，740-741 
implementation (实现 ) 12-13 
mixing scalar quantities with vector quantities 《混合 标 
量 与 向 量 )，737 
multidimensional assignment (多 维 赋值 )，739-740 
scatter and gather operations (分 散 与 聚集 操作 ) ，740 
simultaneous execution (同时 执行 )，737 
treatment as aggregates (作为 聚合 处 理 )，736 
triplet notation (三 元 组 记 法 )，737-738 
array renaming (数组 重 命名 )，198-202 
bounded regular lattice sections for( 有 界 规则 格 区 域 )， 
588 
getting final values into original array (将 最 终 的 值 存 
入 原 数 组 中 )，200-202 
historical comments and references (历史 评述 与 参考 
文献 )，236 
node splitting and ( 结 点 分 裂 ) 202-203 
partitioning algorithm for imple loops (简单 循环 的 划 
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分 算法 ) ，200 
profitability of (有 利 性 )，199 
safety of (安全 性 )，199 
simple regular lattice sections for (简单 规则 格 区 域 )， 
587-588 
vectorization allowed by (允许 的 向 量化 )，198 
array section analysis (数组 区 域 分 析 )，585-588 
historical comments and references (历史 评述 与 参考 
文献 )，603 
lattice representation for ( 格 表示 )，586-588 
side effect problems and (副作用 问题 )，588 
array_partition procedure (array_partitionxt fè), 200 
arrays 《数组 ) 
assignment in Fortran 90 (Fortran 90 中 的 赋值 ) 12- 
13，736-741 
C language optimization and (C 语 言 优 化 )，610，614， 
615 
dependences from ( fk Hi), 198 
execution variables (执行 变量 )，362-363 
extending dependence for (扩展 依赖 )，29-30 
loop equivalence to (循环 等 价 )，13 
renaming ( 重 命名 )，198-202 
asynchronous processor parallelism advantages and 
disadvantages (异步 处 理 器 并 行 性 的 优点 和 缺点 )，18 
Bernstein’s conditions for (Bernstein 条 件 )，19，20， 
35 
compiling for (编译 ) ，19-21 
defined (定义 )，18 
global memories and (全 局 存储 )，20-21 
granularity and (粒度 )，20 
overhead for (开销 )，20 
auxiliary induction variables (辅助 归纳 变量 ) 
complex (复杂 的 )，165-166 
defined (定义 )，158 
dependence testing and (依赖 测试 )， 75, 136-137 
simple statement defining ( 简单 语句 定义 的 ) ，160 
§linduction-variable substitution 
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Backus, John, 3, 606 

backward branch removal ( 后 向 分 支 删 除 ) 333-336 
complexity of (复杂 性 )，333-334 
forward branches and (前 向 分 支 )，333，334，335-336 
guarding conditions and (控制 条 件 ) 334 
implicitly iterative regions ( 隐 含 迭代 区 域 )，334，335 
backward branches (后 向 分 支 ) 
defined (定义 )，322 
isolation of (隔离 )，334 


backward loop-carried antidependence ，alignment threshold 
and 《后 向 循环 携带 反 依 赖 ， 对 齐 阐 值 )，427 
backward loop-carried dependences ( 后 疝 循环 携带 依赖 ) ， 
50 
bakery counter algorithm (面包 店 计数 器 算法 )，305 ， 
315-316 
bandwidth (#737), 21 
Banerjee boolean function (Banerjee 4h (pA Be), 105 
Banerjee Inequality (Banerjee 不 等 式 ) 
入 -test and (入 测试 )，120 
Banerjee lnequality Theorem (Banerjee 不 等 式 定 理 )，101 
definitions and notation for (定义 和 表示 法 )，97-101 
Delta test vs (Delta 测试 )，117 
handling symbolics in (处 理 符号 ) 102-103 
trapezoidal (#6728) ). 103-109 
§ltrapezoidal Banerjee Inequality 
Banerjee, U., 285 
Banning, J. P., 560 
behavioral synthesis (行为 综合 )，618 
benchmarks (基准 测试 程序 ) 
Callahan-Dongarra-Levine suite (Callahan-Dongarra- 
Levine 程序 包 )，234-236 
LINPACKD, 310, 311, 414 
NAS Parallel Benchmarks (NAS 并 行 基准 测试 程序 )， 
732 
Perfect suite ( Perfect 程序 包 ) 315, 403 
scalar replacement on (R$), 401-403 
SPEC suite (SPEC 程序 包 )，401，403，412 
unroll-and-jam with scalar replacement (〈 带 标量 替换 
的 展开 和 压 紧 )，412-415 
Bernstein, A.J., 19, 35 
Bernstein’s conditions for parallelism (并 行 性 的 
Bernstein fF), 19, 20, 35 
binding graphs (48% 1) 
flow-insensitive side effect analysis ( 流 不 敏感 的 副 作 
用 分 析 ) 564 
kill analysis (注销 分 析 )，580，582 
BindingComputeNKILL procedure (BindingCompute 
NKILL 过 程 )，580，582 
blocking (分 块 )，477-491 
effectiveness (有 效 性 ) 490-491 
historical comments and references ( 历史 评述 与 参考 
文献 ) ，509 
legality (合法 性 ) 480-481 
loop alignment with (循环 对 齐 )，488-489 
loop fusion with (循环 合并 )，486，488 
loop skewing with (循环 倾斜 )，485-486，487 
memory analysis of blocked matrix multiplication (分 
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multiple levels of memory hierarchy and (多 级 存储 层 
次 结构 )，489-490 
overview (概述 ) 508 
parallelization with (并 行 化 )，490 
profitability (有 利 性 )，482 
register Usage enhancement with (寄存 器 使 用 改进 )， 
489 
simple algorithm (简单 算法 ) 483-484 
triangular cache blocking (三 角形 高 速 缓存 分 块 ) ， 
491-492 
unaligned data (未 对 齐 的 数据 ) ，478-480 
blocking dependences, loop fusion and (阻碍 合并 的 依 
RH, ERAJ), 423, 424 
BlockLoops procedure (BlockLoops it f%), 484 
BlockLoopswithSkewing procedure ( BlockLoopsWith- 
Skewingit fk), 487 
branch classification (4747 2K), 322-323 
branch instructions 【分 支 指 令 ) 
control hazards from (控制 相关 )，8，10-11 
pipelining (流水 线 处 理 )，5 
in RISC machines (在 RISC 机 器 中 ), 5 
branch relocation (分 支 重 定位 ) 
algorithm (算法 )，331 
branch relocation (continued) 
correctness (正确 性 )，332-333 
for exit branch removal (出 口 分 支 消 除 )，327-328， 
331-332 
见 if-conversion 
branch removal. See backward branch removal; exit 
branch removal; forward branch removal; if-conversion 
(分 支 消 除 ; 见 后 向 分 支 消 除 ， 出 口 分 支 消除 ， 前 向 分 
支 消除 ，it 转 换 ) 
breaking conditions (消除 条 件 ) 
annotating dependences with (注释 依赖 )，92 
in complete dependence testing algorithm (在 完整 的 
依赖 测试 算法 中 )，128 
defined (定义 )，88，92 
in libraries (在 库 中 )，93-94 
for partially vectorizing loops (部 分 地 向 量化 循环 )， 
88-89 
run-time symbolic resolution and (运行 时 符号 解析 )， 
214-215 
SIV subscripts and (SIV 下 标 )，88-89，92-93 
weak-zero SIV test and (38-0 SIV 测试 )，92-93 
ZIV subscripts and (ZIV 下 标 )，93 
Briggs, P., 381 
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branches that jump into loops〈 跳 转 到 循环 内 的 分 支 ) ， 
323 
early use and philosophy (早期 的 使 用 和 原则 )，606 
optimization (优化 )，606-607 
register coloring techniques for RISC machines (RISC 
机 器 的 寄存 器 着 色 技术 )，382 
C language optimization (C 语 言 优化 )，606-607 
aliasing (814%), 607, 611 
case studies ( 实例 研究 ) 652 
challenges and problems (挑战 和 问题 ) 607 
dialect (方言 )，613-615 
historical comments and references ( 历史 评述 与 参考 
文献 ) 652 
loops (循环 )，607，612-613 
naming storage locations 〈 命 名 存储 单元 ) 610-611 
overview (#38), 651 
pointers ($t), 607, 608-611 
scoping and statics (作用 域 和 静态 变量 )，613 
set jmp and longjmp calls (setjmp 和 1ongjmp 调 用 )，616 
side effect operators (副作用 操作 符 )，607，614-615 
structures (结构 )，611-612 
usability favored at expense of (以 为 代价 得 到 的 
可 用 性 )，606 
varargs and stdargs (varargs @jstdargs), 616-617 
volatile variables (volatile (32) Æ), 615-616 
cache blocking (高 速 缓存 分 块 ， 见 blocking ) 
cache management (高 速 缓存 管理 ) 469-510 
blocking (分 块 )，477-491 
case studies (实例 研究 }，508-509 
in complex loop nests (复杂 的 循环 姓 套 )，491-495 
coprocessors and ( 协 处 理 器 )，541 
cycles required for loads (load 指 令 所 需要 的 周期 数 )， 
16 
for data dependences (数据 依赖 )，383-384 
historical comments and references (历史 评述 与 参考 
文献 )，509-510 ， 
loop interchange for spatial locality (空间 局 部 性 的 循 
环 交换 )，471-477 
for LU decomposition (LU 分 解 )，492-495 
memory hierarchy performance and (存储 层次 结构 性 
能 )，22-23 
multiple levels of cache (多 级 高 速 缓存 ) 489-490 
overview (#38), 507-508 
software prefetching (软件 预 取 )，495-507 
spatial reuse and (空间 重用 },，470 
special-purpose transformations (特殊 目的 变换 )， 
492-495 
superscalar architecture issues (超标 量 体 系 结构 的 问 
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E), 14-15 
temporal reuse and (时 间 重 用 )，470-471 
triangular cache blocking (三 角形 的 高 速 缓存 分 块 )， 
491-492 
vector instructions and (向 量 指令 )，12 
VLIW architecture issues ( VLIW 体系 结构 的 问题 )， 
14-15 
cache reuse {高速 缓存 重用 ) 
antidependences and (iiki), 469 
register reuse vs. (寄存 器 重用 )，469-470 
spatial (空间 的 ) 469 
temporal (时 间 的 )，469 
见 cache management 
call graph construction (调用 图 构造 )，588-592 
call set (调用 和 集 )，552 
complexity (复杂 性 )，592 
computing procedure parameter tuples (计算 过 程 参 数 
ETH), 590-592 : 
correctness ( EME), 590-591 
historical comments and references ( D PRSE 
文献 )，603 
problem overview (问题 概述 )，552-553 
procedure parameters and (过 程 参 数 )，552，589-590 
as propagation problem (传播 问题 )，559 
simple approach (简单 方法 )，588-589 
call graphs (调用 图 )，552 
call set (调用 集 }，552 
Callahan, D., 234, 465, 496 
Callahan-Dongarra-Levine benchmark suite (Callahan- 
Dongarra-Levine 基准 测试 程序 包 )，234-236 
CALL problem. See call graph construction (CALL 回 
题 ; 见 调 用 图 构造 ) 
Carr, S., 400, 401, 412, 415, 465, 494, 509 
carry-free alignment graphs (无 携带 的 对 齐 图 ) 251 
case studies (实例 研究 ) 
Ardent Titan compiler for (Ardent Titan 编译 器 )，32 
array assignment compilation (数组 赋值 编译 )，687 
C language optimization (C 语 言 优化 )，652 
cache management (高速 缓 存 管理 ) 508-509 
coarse-grained parallelism 〈 粗 粒度 并 行 性 )，310- 
315 C 
control flow (控制 流 )，376-377 
dependence (依赖 )，70 
dependence testing (依赖 测试 )，130-131 
fine-grained parallelism (〈 细 粒度 并 行 性 )，231-236 
HPF compilation (HPF 编译 ) ，730-732 
if-conversion (if 转 换 )，376-377 
interprocedural analysis and optimization (过程 间 


分 析 和 优化 ) 600-602 
language-based hardware development (基于 语言 的 硬 
件 开发 )，652 
matrix multiplication (和 矩阵 乘法 ) 23-27 
PFC system for (PFC 系统 )，31-32，33 
preliminary transformations (初等 变换 ) ，167-168 
register usage enhancement (寄存 器 使 用 改进 ) 465- 
466 
vector unit scheduling (向 县 部 件 调 度 )，543-546 
CDGgenCode procedure (CDGgenCode 过 程 )，374 
CDGsplit procedure (CDGsplit 过 程 )，373 
chaining vector operations (链接 向 量 运算 )，537-540 
dependence graphs (依赖 图 )，540，549 
described (描述 )，11，537 
hardware vs. compiler responsibilities for (硬件 和 编 
译 器 的 责任 )，537-538 
processor support for (处 理 器 支持 )，11，537 
weighted fusion algorithm variant for (加 权 合 并 算法 
变形 )，538-540 
Chaitin, G.J., 381 
Cholesky decomposition (Cholesky 分 解 )，86 
Chow, F., 381 . 
circuit-level hardware design (电路 级 硬件 设计 )，617 
coarse-grained parallelism ( 粗 粒 度 并 行 性 ) 239-317 
case studies (实例 研究 ) 310-315 
code replication (代码 复制 )，249-254 
extended example (扩展 的 例子 )，297-309 
focus of (焦点 )，239 
guided self-scheduling (制导 的 自 调度 )，306-309 
historical comments and references (历史 评述 与 参考 
文献 )，315-316 
imperfectly nested loops (4ER IAM), 288-297 
loop alignment (循环 对 齐 )，246 - 249 
loop distribution (循环 分 布 )，245 - 246 
loop fusion (循环 合并 )，254 - 271 
loop interchange for parallelism (为 并 行 性 的 循环 交 
换 )，271-275 
loop reversal ( 循环 反 转 )，279-280 
loop selection (MIRAE), 275-279 
loop skewing for parallelism (为 并 行 性 的 循环 倾斜 ) , 
280-284 
multilevel loop fusion (多 级 循环 合并 )，289-292 
overview (概述 ) 309-310 
packaging of parallelism (并行 性 的 封装 ) 297-309 
parallel code generation algorithm ( 并行 代码 生成 算 
法 )，292-297 
perfect loop nests ( 紧 谍 循环 )，271-288 
pipeline parallelism (流水 线 并 行 性 )，301-304 
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profitability-based parallelism methods (基于 有 利 性 
的 并 行 性 方法 )，285-288 
scalar expansion (标量 扩展 )，240-241 
scalar privatization (标量 私有 化 )，240-245 
scheduling parallel work (调度 并 行 任务 )，304-306 
single-loop methods ( 单 循环 方法 )，240-271 
strip mining (循环 分 段 )，300-301 
trade-offs ( 折 中 )，239-240 
unimodular transformations ( 么 模 变换 )，284-285 
code generation stage in HPF compilation ( HPF 编译 中 的 
代码 生成 阶段 )，695，698 
code replication (代码 复制 )，249-254 
alignment and replication algorithm (对 齐 和 复制 算 
法 )，251-254 
generation of aligned and replicated code (对 齐 和 复制 
代码 的 生成 )，255 
code replication in HPF compilation (HPF 编 译 中 的 代码 
复制 )，717-718 
codegen procedure (codegen 过 程 ) 
algorithms (算法 )，64，182 
Ardent Titan approach (Ardent Titan 方 法 )，313-314 
code generation framework with loop selection and 
recurrence breaking ( 带 有 循环 选择 和 打破 依赖 环 的 代 
码 生成 框架 )，182 
in driver for program transformations (程序 变换 的 驱 
动 程序 )，225，226 
exit branch removal and (出 口 分 支 消除 )，329 
fine-grained parallelism found by (发 现 细 粒 度 并 行 
性 )，171，172 
if-reconstruction and (if 重 构 ) 349-350 
loop distribution and (循环 分 布 ) 245-246 
loop interchange and (循环 交换 )，173，177，178 ， 
180, 181 
loop skewing and (循环 倾斜 )，218 
node splitting and ( 结 点 分 裂 )，203 
PFC system and (PFC 系统 )，70，231-232 
scalar expansion and (标量 扩展 )，186，193，194 
section-based splitting and (基于 区 域 的 分 裂 )，213 
select_loop_and_interchange procedure (select_loop_ 
and_interchangext¥a), 183, 185 
threshold analysis and ( {H+ 4#7). 211 
try_recurrence_breaking procedure (try_recurrence_ 
breakingxt fk), 193, 194 
variant to mark vector loops and statements (标记 问 量 
循环 和 语句 的 变形 )，223，225 
vectorization using (向 量化 使 用 ) 64-69 
cohort fusion (混杂 合并 )，270-271 
Collapse procedure (Collapse 过 程 )，442 


common resources identification in HPF compilation 
(HPF 编 译 中 的 公共 资源 标识 )，721-722 
communication analysis and placement stage in HPF compilation 
(HPF 编 译 中 的 通信 分 析 和 定位 )，694，696-697 
communication generation in HPF compilation (HPF 编 译 
中 的 通信 生成 )，704-709 
code generation (代码 生成 )，707-708 
footprint analysis (足迹 分 析 )，704-706 
handling multiple dimensions (处 理 多 个 维 )，726-728 
local storage allocation (局 部 存储 器 分 配 )，706 
mapping iterations to the local iteration set (映射 迭代 
为 局 部 迭代 集 }，706 
rearranging codes to do sends first ( 重 排 代码 以 便 首 
先 完 成 所 有 发 送 )，708-709 
sending data to another processor (发 送 数 据 给 另 一 个 
处 理 机 )，705 
sending iterations outside the normal range (发 送 正常 
范围 外 的 迭代 )}，707-708 
communication vectorization in HPF compilation (HPF 编 
译 中 的 通信 向 量化 )，710-716 
conditions for ( 条件)，712，713-715 
goal of ( 目标 )，710 
handling multiple dimensions (处 理 多 个 维 )，726-728 
principle (原理 )，713 
strip mining for partial message vectorization (部 分 消 
息 向 量化 的 循环 分 段 )，715-716 
Compaq, SMPs from ( 自 Compaq 的 SMP)，18，239 
comparison operators in Fortran (Fortran 90 中 的 比较 操 
作 符 )，90，736 
Compass，32 
compilers ( 编译 器 ) 
advanced technology (先进 技术 ) 28-31 
architecture-specific code and (与 体系 结构 相关 的 代 
码 )，27，28 
HPF compiler overview ( HPF 编译 器 概述 )，694-698 
performance on Callahan-Dongarra-Levine tests 
(Callahan-Dongarra-Levine 测 试 的 性 能 ) 234-236 
responsibilities of (责任 )，3，27，28 
compiling (编译 ) 
for asynchronous parallelism (异步 并 行 性 )，19-21 
inline substitution overuse and (过 度 使 用 内 联 替 换 )， 
593 
interprocedural compilation (过 程 间 编 译 )，595-599 
for memory hierarchy (存储 层次 结构 )，22-23 
for multiple-issue processors (多 发 射 处 理 器 )，15-17 
for scalar pipelines (标量 该 水 线 )，8-11 
for vector pipelines (向 量 流水 线 )，12-13 
See also array assignment compilation; High Perfor- 
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mance Fortran (HPF) compilation ( 见 数组 赋值 编译 ， 

高 性 能 Fortran (HPF) 编译 ) 

complete forward branch removal (if-conversion) (SE 

全 前 向 分 支 删 除 〈if 转 换 ) ) 336-338 
CompleteScalarize procedure (CompleteScalarizext ® ), 
679 
complex loop nests ( 8 AXA ARE ) 

cache management ( 高速 缓存 管理 ) 491-495 

loops with if statements ( 带 if 语 旬 的 循环 )，457-459 

LU decomposition (LU 分 解 )，492-495 

partial redundancy elimination (部 分 宛 余 删除 ) 458-459 

register usage enhancement (寄存 器 使 用 改进 )，456-465 

trapezoidal loops (梯形 循环 )，459-465 l 

trapezoidal unroll-and-jam (梯形 展开 和 压 紧 )，463-465 

triangular cache blocking (三 角形 高 速 缓存 分 块 )， 

491-492 

triangular unroll-and-jam (三 角形 展开 和 压 紧 )，459-463 
complexity (复杂 性 ) 

of backward branch removal (后 向 分 支 删除 )，333-334 

of computing procedure parameter tuples (计算 过 程 参 

数 三 元 组 ) 592 

of constructing control dependence (构造 控制 依赖 )， 

354-355 

of constructing RMOD sets (构造 RMOD 集 )，566-567 

of Delta test (Delta 测 试 ) 120 

in dependence testing (依赖 测试 )，76-77 

of exit branch removal ( 出口 分 支 删 除 ) 327 

of forward branch removal (前 向 分 支 删除 ) 323-324 

of hardware synthesis optimization (硬件 综合 优化 )， 

641-642 

introduced by parallelism (由 并 行 性 导出 的 )，35-36 

complexity (continued) 

of loop nests, register allocation and (GARE, F 

TE Ba Be), 456-465 

of MIV subscripts (MIV Fr), 94-95 

of propagation of global modification side effects (全 

局 修改 副作用 的 传播 )，567 

of scalarization (标量 化 )，655-656 

of typed fusion algorithm ( 带 类 型 的 合并 算法 )，266-267 

of updating pathFrom sets (更 新 pathF rom 集 )，446-448 
computeA procedure (computeA 过 程 )，572 
computeAlias procedure (computeAlias 过 程 )，572 
ComputeNKILL procedure (ComputeNKILL 过 程 )，581 
computePairs procedure (computePairs 过 程 )，573 
ComputePositionAny procedure (ComputePositionAny 过 
程 )，108 
ComputePositionEqual procedure (ComputePosition 
Equalit ), 106 


ComputePositionGreaterThan procedure (ComputePosition 
GreaterThanyt f), 107 
ComputePositionLessThan procedure (ComputePosition 
LessThanit fè), 107 
ComputeProcParms procedure (ComputeProcParms 过 程 ) 
algorithm (算法 )，591 
complexity (复杂 性 )，592 
correctness (正确 性 )，590-591 
ComputeReducedCFG procedure (ComputeReducedCFG 
过 程 )，580 
computeRmod procedure (computeRmod 过 程 )，565-567 
algorithm (算法 )，565 
complexity (复杂 性 )，566-567 
correctness (正确 性 )，565-566 
conditional array assignment in Fortran 90 (Fortran 90 中 
的 条 件数 组 赋值 )，739 
conditional execution vectorization and (条 件 执行 ， 向 量 
化 )，230 
conditionals, Fundamental Theorem of Dependence for 
(有 条 件 的 ， 基 本 依赖 定理 )，44 
Connection Machine, 178, 222 
connectivity in Verilog ( Verilog 中 的 连通 性 )，620-621 
conservative dependence tests (保守 的 依赖 测试 ) 76 
consistent dependences (一 致 依赖 ) 
defined (定义 )，385 
memory management and (存储 管理 )，385 
pruning dependence graphs and ( 前 枝 依赖 图 )，390-392 
CONST problem. See constantpropagation (CONST 问 题 ， 
见 常数 传播 ) 
constant propagation (常数 传播 ) 
algorithm (算法 )，147 
described (描述 )，137 
historical comments and references (历史 评述 与 参考 
文献 )，168-169，603 
interprocedural (过 程 间 )，573-578 
interprocedural value propagation graph (过 程 间 值 传 
播 图 ),，574-575，576 * 
iterative constant propagation algorithm for ( 选 代 常数 
传播 算法 )，575 
jump functions and ( 跳 转 函 数 )，574，576-578 
lattice of constant values for (常数 值 格 )，146，147 
overview (概述 )，146-148，167 
problem overview (问题 概述 )，556 
procedure cloning for (过 程 克 隆 )，595 
as propagation problem (传播 问题 )，559，560 
set of interprocedural constants (过 程 间 常数 集 )，556 
time required for (所 需 时 间 )，148 
unsolvability of (不 可 解 性 )，573-574，581 
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constant-valued assignments, dependence testing and ( 常 
数值 赋值 ， 依 赖 测 试 )，138 
Constraint-Matrix test (约束 -和 矩阵 铀 试 ) 120 
constraint propagation (约束 传播 )，115-119 
distance vectors (距离 向 量 )，117-118 
goal of (目标 )，115 
improved precision (改善 精度 )，117 
multiple passes (£ii), 116-117 
RDIV constraints (RDIV 约 束 )，118-119 
SIV constraints (SIV 约 束 )，116 
constraint vector (约束 向 量 )，114 
constraints (约束 ) 
constraint dependence forms (约束 依赖 形式 )，114 
control dependences (控制 依赖 )，36-37 
data dependences (数据 依赖 )，36 
defined (定义 )，114 
dependence distance (依赖 距离 )，114 
dependence line (依赖 线 )，114 
dependence point (依赖 点 )，114 
in hardware synthesis (硬件 综合 )，643 
intersecting ( 求 交 )，114-115 
in kernel scheduling (核心 调度 )，528-532 
loop fusion safety constraints (循环 合并 安全 约束 )， 
258-260，261-262 
propagation ({##%), 115-119 
ConstructCD procedure (ConstructCDit fE), 352-355 
ConstructDF procedure (ConstructDFit %). 153 
constructing control dependence ( 构造 控制 依赖 ) ，352-355 
algorithm 〈 算 法) 353 
complexity (复杂 性 )，354-355 
correctness (正确 性 )，354 
postdominator tree for (后 控制 结 点 树 )，353-354 
control and data dependence graph for loop distribution 
(循环 分 布 的 控制 和 数据 依赖 图 )，364 
control dependence graphs after splitting for data dependence 
(数据 依赖 分 裂 后 控制 依赖 图 )，372 
after splitting out vertices (分 裂 顶点 后 )，371 
canonical form (规范 形式 ) 370 
code generation algorithm ( 代码 生成 算法 ) 374 
control flow graphs vs. (控制 流 图 )，351 
example (例子 )，351 
historical comments and references (历史 评述 与 参考 
文献 )，378 
for loop distribution (循环 分 布 )，363，364，368，369 
for loops (循环 )，355，356 
quadratic growth of (平方 级 增长 )，351-352 
control dependences (控制 依赖 )，350-376 
application to parallelization (应 用 于 并 行 化 )，359-376 


543 


conditional execution and (条 件 执行 )，320 
constructing (构造 )，352-355 
conversion to data dependences (if-conversion) (转换 
为 数据 依赖 (if 转换 ))，320-350 
defined (定义 )，37，350 
execution model for (执行 模型 ) 356-359 
generating code (生成 代码 )，367-376 
historical comments and references (历史 评述 与 参考 
文献 )，378 
iterative dependences creating (建立 挝 代 依赖 })，343-344 
loop distribution and (循环 分 布 )，360-366 
in loops (在 循环 中 )，355-356 
overview (概述 )，36-37，376 
splitting algorithm (分 裂 算法 )，373 
transformations and (变换 )，360-366 
见 data dependences; if-conversion 
control flow (fhi), 319-379 
case studies (实例 研究 ) 376-377 
constant propagation and (常数 传播 )，148，149 
control dependence (控制 依赖 )，350-376 
dead code elimination and ( 死 代 码 消 除 )，146 
execution constraints from (执行 约束 )，319-320 
in hardware synthesis (在 硬件 综合 中 )，648-649 
historical comments and references (历史 评述 与 参考 
文献 ，377-378 
if-conversion (if 转换 ) 320-350 
minimizing waits in presence of ( 等待 数 目 达到 最 小 )， 
542 
overview (HE), 319-320, 376 
real machine limitations (真实 机 器 限制 )，367 
software pipelining and (软件 流水 )，534-536 
见 control dependences; if-conversion 
control flow graphs (控制 流 图 ) 
control dependence graphs vs. (控制 依赖 图 )，351 
for loop distribution (循环 分 布 )，362 
reduced，computing ( 简化， 计算 )，580 
control hazards (控制 相关 ) 
branch-and-execute instructions and (分 支 指令 和 执行 
指令 )，11 
defined (定义 )，8，10 
penalties from (不 利 的 后 果 )，10 
Convex Application Compiler (Convex 应 用 编译 器 ) 601 
Convex C series compiler (Convex C 串 行 编译 器 )，234 
Convex vectorizing compiler ( Convex 向 量化 编译 器 ) 33 
coprocessors ( 协 处 理 器 ) 
memory access scheduling (存储 访问 调度 )，541-542 
memory caches and (高 速 缓 存 )，541 
scheduling for (调度 )，540-542 
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uses for (用 于 )，540 
VLIW ( 超 长 指令 字 )，15 
wait instructions for (等 待 指 令 )，541-542 
correctness (正确 性 ) 
branch relocation (分 支 重 定位 )，332-333 
computing procedure parameter tuples (计算 过 程 参 数 
元 组 )，590-591 
constructing RMOD sets (构造 RM0D 集 ) 565-566 
control dependence construction (控制 依赖 构造 ) 354 
control dependence execution (控制 依赖 执行 )，358-359 
execution variable and guard creation (执行 变量 和 控制 
的 生成 )，364-366 
forward branch removal (前 向 分 支 删除 )，325-327，338 
fusing a collection of loops (合并 一 组 循环 )，432-434 
loop normalization (循环 正规 化 )，139-140 
multidimensional scalarization (多 维 标量 化 )，680-681 
propagation of global modification side effects (全 局 
修改 副作用 的 传播 )，567 
trapezoidal Banerjee Inequality ( 梯形 Banerjee 不 等 式 )， 
108-109 
typed fusion ( 带 类 型 的 合并 ) 265 
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RDIV subscripts (RDIV 下 标 )，79 
testing for all direction vectors (测试 所 有 的 方向 向 


559 


Æ), 110-111 
JL Banerjee Inequality 
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NP-complete problems (NP 完 全 问题 ) 

Boolean simplification (布尔 化 简 )，338 

instruction scheduling (指令 调度 )，543 
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识别 ) 721-722 
iteration reordering (EHE). 717 
loop alignment (循环 对 齐 )，717-718 
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loop selection (循环 选择 ) 275-279 
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load balance vs. overhead {负载 平衡 和 开销 )，305-306 
loop length and (循环 长 度 )，228-229 
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compiling for vector pipelines (向 量 流 水 的 编译 )， 
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PowerPC G4 
dependence and (依赖 )，546 
vector units in (向 量 部 件 )，15 
prefetch analysis ( 预 取 分 析 ) 
algorithm (算法 )，500-501 
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pruning dependence graphs (continued) 
修剪 依赖 图 ( 续 ) 
historical comments and references (历史 评述 与 参考 
文献 )，466 
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inconsistent dependence and ( 非 一 致 依赖 )，390-392 
typed fusion and ( 带 类 型 的 合并 )，389-390 
PTOOL, described (PTOOL， 描 述 )，32 
PTRAN automatic parallelization project (PTRAN 自 动 并 
行 化 项 目 )，315 
Pugh, W., 121 


Quine, W.V., 338 
R 


R” programming environment (及 "编程 环境 )，600 
RDIV (restricted double index variable) subscripts (RDIV 
( 受 限 的 双 索 引 变量 ) 下 标 ) 79, 118-119 
reaches(b) set (reaches(b) 集 )，143 
reaching decompositions (到达 分 解 )，699 
reactivity in Verilog ( Verlog 中 的 反应 性 )，620 
recurrence breaking (打破 依赖 环 ) 
array renaming for (数组 重 命名 )，198-202 
node splitting for ( 结 点 分 裂 ) 202-205 
scalar expansion for (标量 扩展 )，193，194 
reduced control flow graph, constructing ( 归 约 控制 流 图 
构造 )，580 
reductions ( 妇 约 ) 
computing (计算 )，205-207 
count (计数 ),. 205 
defined (定义 )，205 
exit branch removal and (出 口 分 支 删 除 )，330-331 
max/min (最 大 值 /最 小 值 )，205 
properties of (属性 )，207-208 
recognition of (识别 )，207-209，330-331 
sum ( 求 和 )，205-207，221-222 
REF problem. See reference side effects (REF 问 题 ; 见 引 
用 副作用 ) 
reference groups, conditions for (引用 组 ， 条 件 )，473-474 
reference side effects set (引用 副作用 集 )，551 
Teference side effects 
as flow-insensitive problem (作为 流 不 敏感 问题 的 引用 
副作用 )}，557-558 
interprocedural compilation and 《过程 间 编 译 )，598，599 
as may problem (可 能 问题 )，557 
overview (概述 )，550-551 
reference side effect set (引用 副作用 和 集 )，551 
as side effect problem (副作用 问题 )，559 
A flow-insensitive side effect analysis 
register allocation. (寄存 器 分 配 ; register usage 
enhancement 改 进 ) 
register coloring techniques for scalar register allocation 


(标量 寄存 器 分 配 的 寄存 器 着 色 技 术 )，381-382 
register pressure moderation (寄存 器 压力 缓解 )，395- 
396 
register reuse (寄存 器 重用 ) 
cache reuse vs., ( 高 速 缓 存 重用 ) 469-470 
data dependence for (数据 依赖 )，383-384 
loop-carried dependences for (循环 携带 依赖 )，385 
loop fusion for (循环 合并 )，420-453 
loop-independent dependences for (循环 无 关 依 赖 )， 
384-385 
loop interchange for ( 循环 交换 )，415-420 
as temporal reuse (时 间 重 用 )，469 
See also register usage enhancement ( 见 寄 存 器 使 用 的 
增进 ) 
register-to-register ALU operations (寄存 器 到 寄存 器 算 
REHM (ALU) 操作 ) 
pipelining (流水 线 )，5 
in RISC machines (RISC 机 器 中 )，4 
register-transfer-level(RTL) (寄存 器 传输 级 ) 
hardware design (硬件 设计 )，617，618 
register usage enhancement (寄存 器 使 用 的 增进 )， 
381-468 
blocking with (循环 分 块 )，489 
case studies (实例 研究 )，465-466 
complex loop nests (H REIRE ), 456-465 
historical comments and references (历史 评述 与 参考 
文献 ) 466-467 
instruction scheduling and (指令 调度 )，513，523 
loop fusion for register reuse (为 寄存 器 重用 的 循环 合 
并 )，420-453 
loop interchange for register reuse (为 寄存 器 重用 的 循 
环 交 换 )，415-420 
loops with if statements ( 带 if 语 句 的 循环 )，、457-459 
matrix multiplication example (ERER ATF), 454-456 
ordering transformations (排序 变换 ) 453-454 
overview (HEIR), 465 
partial redundancy elimination (部 分 元 余 消 除 ) 458- 
459 
putting it all together (改进 寄存 器 使 用 的 变换 综合 )， 
453-456 
scalar register allocation (标量 寄存 器 分 配 )，381-387 
scalar replacement 〈 标 量 替换 )，383，387-403 
software pipelining and ( 软 流水 )，534 
trapezoidal loops (梯形 循环 )，459-465 
unroll-and-jam (展开 和 压 紧 )，403-415 
registers in hardware synthesis (硬件 综合 中 的 寄存 器 )， 
649 
relocate_branches procedure (relocate_branchesit fè), 
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331-333 
remove_branches procedure (remove_branchesit f ), 
326, 336-338 
simplification algorithm with (简化 算法 )，341 
reordering transformations 〈 重 排序 变换 ) 
defined (定义 )，42 
dependence preservation and (依赖 维持 ) 43, 51-52, 
54-55 
Fundamental Theorem of Dependence (依赖 基本 害 
HE), 43-44 
Iteration Reordering Theorem (和 迭代 重 排序 定理 )，55 
loop-carried dependences and (循环 携带 依赖 ) 51- 
52 
loop-independent dependences and (循环 无 关 依 赖 ) ， 
53-55 
See also transformations 
resource usage constraint in kernel scheduling (核心 调度 
中 的 资源 使 用 约束 )，528-530 
restricted double index variable(RDIV) subscripts ( 受 限 
的 双 索 引 变 量 (RDIV) 下 标 )，79，118-119 
rewriting block conditions (84E ), 637-638 
RISC machines (RISC 机 器 ) 
DLX instruction pipeline (DLX 指 令 流 水 )，4-6 
instruction forms in (指令 格式 )，4-5 
register coloring techniques for (寄存 器 着 色 技术 )，382 
register usage importance for (寄存 器 使 用 的 重要 性 ) ， 
381 
RMOD construction (RMO0D 的 构造 )，565-567 
RTL(register transfer level) hardware design (RTL (寄存 
器 转换 级 ) 硬件 设计 )，617，618 
run-time symbolic resolution (运行 时 符号 解析 ) ，214- 
215 


S 


safe transformations (安全 变换 ) 
array renamirig safety (数组 重 命 名 安全 性 )，199 
defined 《定义 )，41 
loop fusion safety constraints (循环 合并 安全 性 约束 )， 
258-260，421 
loop interchange safety ( 循环 交换 安全 性 ) 174-177 
scalar expansion safety (标量 扩展 安全 性 ) 187 
SafeSclaralize procedure (SajeSciaralize 过 程 ) 659, 
660, 668 
safety issues for pointer optimization in C (C 语 言 中 指针 
优化 的 安全 性 问题 )，609 
satisfied dependences (满足 依赖 )，51 
scalar architectures (标量 体系 结构 ) 
compiling for scalar pipelines (标量 流水 编译 )，8-11 


565 


matrix multiplication and (48f¢3R7#:), 24, 25, 26- 
27 
performance and (性 能 )，1，2 
scalar copy instructions ，eliminating (标量 复制 指令 
消除 ) 394-395, 400 

scalar dependences (标量 依赖 )，128-129 

scalar expension (标量 扩展 ) 
中 -functions and (中 -函数 ) 189-190 
antidependences and ( 反 依 赖 )，191，192 
artificial dependences from (人 为 依赖 )，195-196 
coarse-grained parallelism and ( 粗 粒度 并 行 性 )，240- 
241 
code for (代码 )，186 
covering definitions and (覆盖 定义 )，188-191 
dependence graph for vector swap (向 量 交 换 的 依赖 
图 )，185 
determining deletable edges ( 确定 可 删除 的 边 )，188-193 
fine-grained parallelism and ( 细 粒 度 并 行 性 )，184-195 
forward substitution and (〈 前 向 替换 )，195 
historical comments and references (历史 评述 与 参考 
文献 ) 236 
memory requirements for ( 存储 需求 )，193-195 
output dependences and (输入 依赖 )，191 
overview (概述 ) 231 
parallelism created by ( 创建 的 并 行 性 )，172-173 
profitability of (有 利 性 )，187-188 
scalar privatization vs., (标量 私有 化 )，243 
sum reductions and (RAYA), 221-222 
true dependences and ( 真 依赖 )，192 
vector swap and (向 量 交 换 )，184-186 

scalar privatization (标量 私有 化 )，240-245 
array section analysis and (数组 区 域 分 析 )，588 
described (描述 )，241 
determining privatizability (确定 可 私有 性 )，241-243 
historical comments and references (历史 评述 与 参考 
文献 )，315 
importance of (重要 性 )，241，243 
for nests of loops (MRE), 244-245 
profitability of ( 有 利 性 ) 187 
scalar expansion vs., (标量 扩展 )，243 
for single loops〈 单 循环 )，244 
SSA graphs and (SSA 图 ) ，242-243 

scalar register allocation (标量 寄存 器 分 配 )，381-387 
data dependences and (数据 依赖 )，383-384 
example (例子 ) 386-387 
loop-carried dependences and (循环 携带 依赖 )，385 
loop-independent dependences and ( 循环 无 关 依赖 ) ， 
384-385 
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register coloring techniques for (寄存 器 着 色 技 术 ) ， 
381-382 

scalar renaming (标量 重 命 名 )，195-198 
algorithm (算法 )，197 
artificial dependences eliminated by (人 为 依赖 消除 )， 
195-196 
definition-use graph for (定义 ~ 使 用 图 )，196 
historical comments and references {历史 评述 与 参考 
文献 )，236 
profitability of (有 利 性 )，197-198 

scalar replacement (标量 替换 ) 387-403 
algorithm (łk), 396-400 
conditional code and (条 件 代 码 }，457-458 
of cyclic set of dependences ( 有 环 依赖 集合 )，399 
for dependences spanning multiple iterations (为 跨越 
多 个 迭代 的 依赖 ) 393-394 
development of (开发 )，382-383 
eliminating scalar copies (消除 标量 拷贝 )，394-395， 
400 
experimental data (经 验 数据 )，400-403 
in hardware synthesis (硬件 综合 )，646，650 
historical comments and references (历史 评述 与 参考 
文献 )，466 
inserting memory references for inconsistent 
dependences (为 不 一 致 的 依赖 插入 存储 引用 ) ，399 
for loop-carried dependences (为 循环 携带 依赖 )， 
392-393 
moderating register pressure (缓解 寄存 器 压力 )，395-396 
of noncyclic set of dependences (无 坏 依赖 集合 )，398 
order of transformations and (变换 的 顺序 )，454 
outer loop reuse and (外 层 循 环 重用 )，403-404 
partial redundancy elimination for (部 分 匈 余 消除 )， 
458-459 
pruning the dependence graph (修剪 依赖 图 )，387-392 
simple (简单 的 )，392 
unroll-and-jam with (展开 和 压 紧 )，411-415 

scalar variables (标量 变量 ) 
privatizable ( 可 私有 化 的 )，241 
register coloring techniques for (寄存 器 着 色 技术 )， 
382 

scalarization (标量 化 ) 
case studies (实例 研究 )，687 
complexity of (复杂 性 )，655-656 
historical comments and references (历史 评述 与 参考 
文献 )，687-688 
memory hierarchy and (存储 层次 结构 )，655 
multidimensional (多 维 的 )，668-683 
postscalarization interchange and fusion (后 标量 化 委 


换 和 合并 )，684-686 
scalarization dependences (标量 化 依赖 )，657 
scalarization faults (标量 化 失效 )，657 
simple (简单 的 )，656-660 
of single vector operation ( 单 向 量 操 作 )，650-660 
transformations (变换 )}，660-668 
vector machine considerations (向 量 机 的 考虑 )，683 
风 array assignment compilation 
scalarization dependences, defined ( 标量 化 依赖 , 定义 )， 
657 
scalarization transformations( 标 量化 变换 )，660-668 
input prefetching (输入 预 取 )，661-665 
loop reversal (循环 反 转 )，660-661 
loop splitting (循环 分 裂 ) 666-668 
ScalarReplace procedure (ScalarReplace 过 程 )，397 
ScalarReplacePartition procedure (ScalarReplacePartition 
过 程 )，398 
scatter-gather operations in Fortran 90 (Fortran 90 中 的 分 
散 - 收 集 操 作 )，740 
performance and (性 能 )，228 
scheduling (调度 ) 
见 instruction scheduling; multiprocessor scheduling; 
vector unit scheduling 
scheduling graph (调度 图 ) 
components of (成 分 )，515 
correct schedule mapping on (正确 的 调度 映射 )， 
515-516 
scoping rules, C language optimization and (作用 域 规则 ， 
C 语 句 优化 )，613 
section-based splitting (基于 区 域 的 分 裂 ) 212-214 
select_and_apply_transformation procedure (select_and_ 
apply_transformationyt f£), 227 
select_loop_and_interchange procedure (select_loop_ 
and_interchangext #3), 183, 185, 282-284 
select_permutation procedure (select_permutationit f), 
288 
separability in dependence testing (可 分 性 依赖 测试 )， 
77-78 
Sequent, SMPs from (Sequent, SMP), 18, 310-311 
set of interprocedural constants (过 程 间 常数 集 )，556 
setjmp calls, C languate optimization and ( setjmp 调 用 ， 
C 语 言 优 化 )，616 
SGI Origin 2000，239 
side effect analysis. See flow-insensitive side effect 
analysis (副作用 分 析 ; 见 流 不 敏感 副作用 分 析 ) 
side effect operators, C language optimization and ( 副 作 
用 操作 符 ，C 语 言 优 化 )，607，614-615 
side effect problems 《副作用 问题 ) 
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array section analysis for (数组 区 域 分 析 )，588 
propagation problems vs.，( 传播 问题 ) 559-560 
side effect sets (副作用 集合 ) 
kill (注销 )，555 
modification (修改 )，551 
reference (5177), 551 
use (使 用 )，554 
side effects of computation, program equivalence and 
(计算 的 副作用 程序 等 价 )，42 
Silicon Graphics, SMPs from (Silicon Graphics, SMP), 
18, 239 
SIMD machines, loop interchange profitability and 
(SIMD 机 器 ， 循 环 交换 的 有 利 性 )，178 
SimpleScalarize procedure (SimpleScalarize 过 程 ) 
algorithm (#7), 658 
cost of (代价 )，659 
scalarization faults avoided by (避免 标量 化 失效 )， 
658 
simplification procedures(if-conversion) (化 简 过 程 (if 转 
换 ))，338-343 
fast algorithm for (快速 算法 ) 339-343 
Quine-McCluskey procedure (Quine-McCluskeyit fE ), 
338-339 
Simplify procedure (Simplifyxt ), 342 
simulation optimization. See hardware simulation optim- 
ization (模拟 优化 ， 见 硬件 模拟 优化 ) 
single index variable subscripts. See SIV (single index 
variable) subscripts ( 单 索引 变量 下 标 ; 见 SIV ( 单 索 引 
变量 ) 下 标 ) 
single-loop methods 〈 单 循环 方法 )，240-271 
code replication ( 代码 复制 )，249-254 
loop alignment (〈 循 环 对 齐 ) 246-249 
loop distribution (循环 分 布 )，245-246 
loop fusion (循环 合并 )，254-271 
overview (概述 )，309 
scalar privatization 《标量 私有 化 )，240-245 
single-program multiple-data(SPMD) form (单程 序 流 多 
数据 流 (SPMD) 形式 )，689-691 
single-subscript dependence tests ( 单 下 标 依赖 测试 )， 
81-111 
MIV tests (MIV 测 试 )，94-111 
SIV tests (SIV 测 试 )，82-94 
ZIV test (ZIV 测 试 )，82 
SIV( single index variable) subscripts (SIV( 单 索引 变量 ) 
下 标 ) 
breaking conditions (消除 条 件 ) ，88 ，92-94 
complex iteration spaces (复杂 迭代 空间 )，87-90 
constraint propagation (约束 传播 )，116 


567 


defined (74252), 76 
Delta test (DeltaMifit), 112-114, 117 
dependence testing algorithm and (依赖 测试 算法 )， 
79 
dependence tests (依赖 测试 )，82-94 
empirical study of tests (测试 经 验 研究 )，121-123 
exact dependence test (精确 依赖 测试 )，94 
intersecting constraints ( 求 交 约束 )，114-115 
strong SIV test ( 强 SIV 测 试 ) 82-83 
symbolic dependence tests (符号 化 依赖 测试 ) 90-92 
weak (35), 84, 85 
weak-crossing SIV test ( 3938 MSIVMix), 86-87 
weak-zero SIV test (35-0 SIVMMiX), 84-86 
slope of a recurrence (依赖 环 的 斜率 )，531 
SMPs. See symmetric multiprocessors(SMPs) (SMP; H 
对 称 型 多 处 理 器 ) 
software pipelining.See kernel scheduling (4kifé7zk; 见 核 
心 调度 ) 
software prefetching (软件 预 取 )，495-507 
algorithm (H74), 496-506 
critical steps ( XF), 496-497 
disadvantages of (缺点 )，496 
effectiveness (4 RE), 506-507 
historical comments and references ( 历史 评述 与 参 游 
文献 )，510 
load instructions vs.，( load 指 令 ) 495-496 
machine instructions for (机 器 指令 ) 469-470, 495- 
496 
overview (HR), 495-496, 508 
prefetch analysis ( 预 取 分 析 ) 496, 497-498, 500- 
501 
prefetch insertion for acyclic name partitions (无 环 名 
字 划 分 的 预 取 的 插入 )}，501-504 
prefetch insertion for cyclic name partitions (有 环 名 字 
划分 的 预 取 的 插入 )，504-505 
prefetch insertion overview ( 预 取 插 入 概述 )，496， 
497，498-499 
prefetch vectorization (〈 预 取向 量化 ) ，498，504 
prefetching irregular accesses (不 规则 访问 的 预 取 )， 
505-506 
requirements (kK), 498 
Sony Playstation, 2, 546 
Sorenson, Dan, 495 
spatial reuse (空间 重用 ) 
defined (定义 )，469 
irregular accesses and (不 规则 访问 )，505 
loop interchange for spatial locality (空间 局 部 性 的 循 
环 交 换 )，471-477 
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prefetch analysis and ( 预 取 分 析 ) 497 
prefetch insertion and ( 预 取 插入 )，501-502 
sequential memory access for loop iterations and ( 循 
SRB TRAD BITA), 470 
stride-one access and ( 跨 距 为 1 的 访问 ), 471 
SPEC benchmark suite (SPEC 基 准 油 试 程序 包 )，401， 
403，412 
SplitLoop procedure (SplitLoopit f), 666 
SPMD(single-program, multiple-data) form (SPMD ( 单 
程序 流 多 数据 流 ) 形式 )，689-691 
SSA form. See static single-assignment (SSA) form (SSA 
形式 ; 见 静 态 单 赋值 (SSA) 形式 ) 
stalls, 37 . See also dependence (停顿 ; 见 依赖 ) 
Stanford SUIF compiler (Stanford SUIF 编 译 器 )，600 
static scheduling, dynamic scheduling vs., {静态 调度 ， 
动态 调度 )，627-628 
static single-assignment(SSA) form, ( 静态 单 赋值 (SSA) 
形式 ) 
148-155 
中 -function insertion ($-FARHA), 149-150, 154-155 
for complex auxiliary induction-variable substitution 
(复杂 辅助 归纳 变量 替换 )，165，166 
construction phases (构造 阶段 )，149 
determining insertion locations (确定 插入 位 置 )， 
154-155 
dominance frontiers (控制 边界 )，150-154 
forward expression substitution and (前 向 表达 式 替 
dp), 156-157, 158 
historical comments and references ( H PFR 584 
文献 )，169 
induction variables and ( 归纳 变量 )，160 
properties (RPE), 158 
scalar privatization and (标量 私有 化 ) 242-243 
update SSA graph after induction-variable substitution 
algorithm (在 归纳 变量 替换 后 更 新 SSA 图 的 算 靶 )，164 
stdargs, C language optimization and (stdargs, Cié 
FERAL), 616-617 
storage management in HPF compilation (HPF 编 译 中 的 
存储 管理 ) 722-725 
leaving communication inside the outermost loop (将 
通信 和 留 在 最 外 层 循环 之 内 )，724-725 
matrix multiplication example (REREH), 722- 
723 
moving code entirely out of the outermost loop (将 代 
码 完全 移出 最 外 层 循 环 }，723 
straight-line graph scheduling ( 直线 图 调度 )，515-516 
strip-mine-and-interchange (分 段 和 交换 ) 
algorithm (算法 )，481 
described (描述 )，471，480 
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on inner vs. outer loop 〈 内 层 和 外 层 循环 )，477-478 
legality (合法 性 )，480-481 
strip-mining loops( 循 环 分 段 ) 
dependence threshold and (依赖 益 值 )，210 
for efficiency (有 效 性 )，300-301 
in hardware synthesis (硬件 综合 ) 650 
loop-independent dependence and (循环 无 关 依 赖 )， 
360 
for partial message vectorization (部 分 消息 向 量化 )， 
715-716 
for scalar expansion (标量 扩展 )，194-195 
temporal reuse and (时 间 重 用 ; 见 分 段 和 交换 )，471 
See also strip-mine-and-interchange 
StripMineAndInterchange procedure (StripMineAnd 
Interchangeit £), 481 
strong SIV subscripts (SIV FHR) 
complex iteration spaces (复杂 迭代 空间 ) 87-90 
defined (7422), 82 
Delta test (Delta 测 试 )，116 
dependence distance (依赖 距离 )，82 
dependence test (依赖 测试 )，82-83 
empirical study of tests ( 测试 的 经 验 研 究 ) 121-123 
GCD test and (GCD 测 试 )，97 
historical comments and references (历史 评述 与 参考 
文献 )，131 
loop-invariant symbolic expressions and (循环 不 变量 
的 符号 表达 式 )，83 
structural hazards (结构 相关 )，8 
structures, C language optimization and (结构 ， 
RAL). 611-612 
subscripts for dependence tests ( 依赖 测试 的 下 标 ) 
algorithm for separable subscript testing (可 分 下 标 而 
RBH), 125 
coupled groups (#8441), 78-79, 111-121 
defined (X), 75 
MIV (multiple index variable) (MIV( 多 索引 变量 ))， 
76-77，79 
nonlinear ( 非 线 性 ) 75-76 
partitioning ( 划分 ) 80 
restricted double index variable (RDIV) subscripts ( 受 
限 的 双 索 引 变量 下 标 )，79 
separability ( 可 分 性 )，77-78 
SIV (single index variable) (SIV ( 单 索 引 变 量 ))， 
76-77 
ZIV (zero index variable) (ZIV( 零 索引 变量 ))，76-77，81 
SUIF compiler (SUIF 编 译 器 )，600 
sum reductions ( 求 和 妇 约 )，205-207 
computing (if), 205-207 
defined (#232), 205 
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dependence graph for (依赖 图 )，208 
scalar expansion and (标量 扩展 )，221-222 


scalar register allocation example (标量 寄存 器 分 配 例 


子 )，386-387 


Sun Microsystems, SMPs from (Microsystems, SMPs), 


18, 239 


Supercomputers, performance (1950-2000) (超级 计算 机 ， 


性 能 (1950-2000)), 1, 2 

superscalar architectures (超标 量 体 系 结构 ) 
advantages of (优点 )，14 
choosing transformations and (选择 变换 )，222 
described (描述 ) 14 
disadvantages of (缺点 )，14-15 


instruction scheduling and (指令 调度 )，15，512， 


513 
multiple-issue instructions in (多 发 射 指 令 )，14，15 
performance and (PEE). 1, 2 ` 

symbolic analysis (4347r), 581-585 


absence of dependence proved by (证 明 无 依赖 )， 


582-583 
algorithm requirements (算法 需求 )，584 
goal of (目标 )，583 


historical comments and references (历史 评述 与 参考 


文献 ) ，603 
predicate analysis (谓词 分 析 )，484-485，583 
range analysis (范围 分 析 )，5$83，584，585 


symbolic expression analysis (符号 表达 式 分 析 ) ， 


583-584 
symbolic dependence tests (符号 化 依赖 测试 ) 
Banerjee Inequality (Banerjee 不 等 式 )，102-103 ` 


historical comments and references (历史 评述 与 参考 


文献 )，131 


for loop-invariant symbolic expressions (循环 不 变量 


的 符号 表达 式 )，83 
for SIV subscripts (SIV 下 标 )，90-92 


symbolic step size, loop normalization and (符号 步 长 大 


小 ， 循 坏 正 规 化 )，141 


symbolic variables, run-time resolution of (符号 变量 ， 


运行 时 解决 方案 )，214-215 


symmetric multiprocessors (SMPs) (对 称 多 处 理 器 (SMP) 
asynchronous processor parallelism in (异步 处 理 器 并 


行 性 )，18 
matrix multiplication and (46BE38?E), 26 
transition from (转换 )，689 


§Lasynchronous processor parallelism; coarse-grained 


parallelism 


synchronous designs, fusing always blocks in (同步 设 


计 ， 集 中 a1ways 块 ) 629-630 


synchronous processor parallelism advantages and 


569 


disadvantages〈 问 步 处 理 器 并 行 性 的 优 缺 点 )，17 
defined (定义 )，17 

synthesis optimization. See hard-ware synthesis optim- 
ization (综合 优化 ， 见 硬件 综合 优化 ) 

system-level hardware design (系统 级 硬件 设计 )，617， 
618 


Tarjan. R. E., 152 
TEMPLATE directive in HPF (HPF 中 的 TEMPLATE 制 导 )， 
691-693 
temporal reuse (时 间 重 用 ) 
defined (定义 )，469 
prefetch analysis and ( 预 取 分 析 )，497 
strip mining and (分 段 )，471 
Tera MTA series (Tera MTA 系 列 机 器 )，381 
test_dependence boolean procedure, 124, 125-126 
(test_dependence 布 尔 过 程 ) 
test_separable boolean procedure (test_separable 布 尔 过 
程 )，125 
theorems (定理 ) 
alignment, replication, and statement reordering 
sufficiency (FA, 复制 和 语句 重 排序 的 充分 性 )，250 
Banerjee Inequality (Banerjee 不 等 式 )，101 
continuous solution space (连续 解 空 间 )，96 
control dependence execution (控制 依赖 执行 )}，358-359 
deletable edges with scalar expansion (用 标量 扩展 可 
删除 的 边 )，191 
Direction Vector Transformation (方向 向 量变 换 )，47 
direction vectors and dependence (方向 向 量 和 依赖 )，176 
Fundamental Theorem of Dependence (依赖 基本 定 
BR), 43-44 
GCD Test (GCDWix), 96 
Iteration Reordering ( 述 代 重 排序 )，55 
legal permutation of loops (循环 的 合法 置换 )，177 
Loop Dependence (循环 依赖 )，41 
loop interchange and dependences (循环 交换 和 依赖 ) ， 
179-180 . 
loop interchange for parallelism (为 并 行 性 的 循环 交 
换 )，273 
Loop Parallelization (循环 并 行 化 )，59-60 
Loop Vectorization (循环 向 量化 )，62-63 
privatizable variables ( 可 私有 化 的 变量 )，242 
reordering transformations and dependence preser- 
vation ( 重 排序 变换 和 依赖 保持 )，51，54 
simple dependence testing (简单 依赖 测试 )，56 
unroll-and-jam legality (展开 和 压 紧 合法 性 )，408 
Thinking Machines CM-2，17 
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thread-local storage (线程 局 部 存储 )，304-305 
threshold analysis ((@4{A4>#t), 209-211 
tiling. See blocking (循环 分 块 ; 见 blocking ) 
Titan compiler. See Ardent Titan compiler (Titan 编 译 器 ; 
W Ardent Titan 编 译 器 ) 
Torczon, L., 578 
trace (踪迹 )，519 
trace scheduling (踪迹 调度 )，518-523 
code explosion from (代码 激增 )，521-523 
convergence and (收敛 )，520-521 
described (HäR), 519 
fixup code (修正 代码 )，519-520，521-523 
historical comments and references (历史 评述 与 参考 
文献 )，547 
overview (概述 )，543 
steps for (49), 519 
straight-line scheduling issues (直线 调度 问题 ) 523 
transformations (变换 ) 
algorithm tying together (算法 集成 )，222-226 
array renaming (数组 重 命名 )，198-202 
case studies (实例 研究 )，167-168 
choosing (选择 )，221-222，227 
code replication (代码 复制 )，249-254 
as compiler responsibility ( 编译 器 的 职责 )，3 
conditional execution and ( 条 件 执行 )，230 
constant propagation (常数 传播 ) 137, 146-148, 
167, 573-578 
constraints on (293), 36-37 
control dependences and (控制 依赖 ) 360-366 
data flow analysis for (数据 流 分 析 )，141-155 
dead code elimination ( 死 代码 消除 )，137，145-146， 
167 
definition-use chains for (定义 -使 用 链 )，142-145 
dependence and (依赖 )，20，41-45 
dependence preservation and ( 依赖 保持 )，43 ，51-52 
as dependence testing requirements (依赖 测试 需求 )， 
135-137 ` 
Direction Vector Theorem (方向 向 量 定理 ) 47 
Fundamental Theorem of Dependence (依赖 基本 定 
BE), 43-44 
generating vector code from scalar source program (从 
标量 源 程 序 生成 向 量 代码 ) 223-226 
global view required for (需要 的 全 局 视图 ) 222 
by hand (手工 )，2 
in hardware synthesis (硬件 综合 )，644-648 650 
historical comments and references (历史 评述 与 参考 
文献 )，32，168-169，236 
for imperfectly nested loops (JERKIE), 288-297 
index-set splitting (索引 集 分 裂 )，209-214 


induction-variable substitution (归纳 变量 替换 )，136- 
137, 155-166, 167-168 

inline substitution (ARKH), 549, 592-594 

input prefetching (4) A TAH), 661-665 

interference between (之 间 的 干扰 )，221 
interprocedural optimization (过 程 间 优 化 )，549， 
592-595 

iteration reordering (迭代 重 排序 )，717 

Iteration Reordering Theorem (迭代 重 排 序 定理 )，55 
loop alignment (循环 对 齐 )，246-249，424-428 

loop distribution (循环 分 布 )，245-246 

loop embedding (循环 代入 )，595 

loop fusion (循环 合并 )，254-271 ，289-292 ，420-453 
loop interchange (循环 交换 )，141，172-184，271- 
275, 415-420 , 674-677 

loop length and (循环 长 度 )，228-229 

loop normalization (循环 正规 化 )，138-141，166 
loop reversal ( 循环 反 转 )，279-280，660-661 

loop selection (循环 选择 ) 275-279 

loop skewing (循环 倾斜 ) 216-220, 280-284 

loop splitting (78264) 24), 87, 212, 666-668 
memory-stride access and (存储 跨 距 访问 )，227-228 
multilevel loop fusion (多 层 循环 合并 ) ，289-292 
node splitting (47547), 202-205 

nonexistent vector operations and (不 存在 的 向 量 操 
作 )，229 

operand reuse and (操作 数 重用 ) 229 

order for register allocation (寄存 器 分 配 的 顺序 ) 454 
overview (概述 ) 30-31 

for perfect loop nests ( Bik (hE), 271-288 
procedure cloning (过 程 克隆 ) 594-595 
profitability-based parallelism methods (基于 有 利 性 
的 并 行 性 方法 )，285-288 

program equivalence under (程序 等 价 )，41-42 
reordering transformations ( 重 排序 变换 )，42-44 
safe， defined ( 安全， 定义 )，41 

satisfied dependences and (满足 的 依赖 )，51 

scalar expansion (标量 扩展 )，172-173，184-195 
scalar privatization (标量 私有 化 )，187，240-245 
scalar renaming (标量 重 命名 ) 195-198 

scalar replacement (标量 替换 )，387-403 457-459 
scalarization transformations (标量 化 变换 )，660-668 
scatter-gather operations and (分 散 -收集 操作 )，228 
single-loop methods ( 单 循环 方法 ) 240-271 
special-purpose, cache management and (特殊 用 途 ， 
高 速 缓存 管理 ) 492-495 

static single-assignment (SSA)form (静态 单 赋值 
(SSA) 形 式 )，148-155 

strip-mine-and-interchange (分 段 和 交换 )，471 
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strip-mining loops (分 段 循环 )，194-195，210，300- 
301，360 
unimodular ( 么 模 )，284-285 
unroll-and-jam (RIF AUER), 403-415, 459-465 
valid, defined (AHJ, HM), 44 
See also if-conversion; reordering transformations ( 见 
if 转 换 ， 重 排序 变换 ) 
transform_code procedure (transform_code 过 程 )，226 
trapezoidal Banerjee Inequality (梯形 Banerjee 不 等 式 )， 
103-109 
correctness 〈 正 确 性 )，108-109 
derivation of (派生 )，104-105 
for direction “=”( 方 向 “=” 的 )，106 
. for direction “<” (方向 “<” 的 )，107 
for direction “>”( 方 向 “>” 的 )，107 
for direction“*”( 方 向 “*” 的 )，108 
evaluation algorithm ( 求 值 算法 )，105 
trapezoidal unroll-and-jam (梯形 的 循环 展开 和 压 紧 )， 
463-465 
triangular cache blocking ( 三 角形 高 速 缓存 分 块 )，491-492 
triangular unroll-and-jam ( 三 角形 循环 的 展开 和 压 紧 )， 
459-463 
Triolet.R., 120 
triplet notation in Fortran 90 (Fortran90 中 的 三 元 组 表示 
法 )，737-738 
true dependence ( 真 依赖 ) 
cache management for (高 速 缓存 管理 )，383-384 
defined (定义 )，37 
levels of (层次 )，59 
notation (表示 法 )，37 
register allocation for (寄存 器 分 配 )，383-384 
scalar expansion and (标量 扩展 )，192 
scalarization loop-carried and (循环 携带 的 标量 化 )， 
660, 661 
try set function (try #4 Až), 110 
try_recurrence_breaking procedure (try_recurrence_ 
breakingit fE), 193, 194 
Tseng, C.-W., 121, 509, 730, 731 
two-state logic, four-state logic vs., (FAAP, WA 
Ht), 637 
typed fusion ( 带 类 型 的 合并 ) 
algorithm (算法 ) 262-267 
bad edge constraint ( 坏 边 限制 )，261-262 
complexity (复杂 性 ) 266-267 
correctness (正确 性 )，265 
for finding name partitions (寻找 名 字 划 分 )，389-390 
optimality (最 优 性 )，265-266 
ordered ( 有 序 的 )，269-270 
ordering constraint (排序 限制 )，261 


overview (#38), 261-267 

parallel nodes and ( }f 774844), 266-267 

sequential nodes and ( #4725 #4), 267 

typed fusion problem, defined ( 带 类 型 的 合并 问题 。 

定义 )，261 

unordered (无 序 的 )，267-269 

unroll-and-jam with (展开 和 压 紧 )，409，410 
TypedFusion procedure (TypedFusion 过 程 )，262，297 
in Unroli_And_Jam procedure (Unroll_And_Jam 过 程 )， 
409 


U 


unaligned data, blocking and ( 非 对 齐 的 数据 ， 分 块 )， 
478-480 
unimodular transformations ( 乏 模 变换 )，284-285 
Unix machines (Unix 机 器 ) 
scheduling parallel work in (调度 并 行 任务 )，304-306 
thread-local storage in (线程 局 部 存储 )、304-305 
unroll-and-jam (展开 和 上 压 紧 )，403-415，459-465 
algorithm (算法 )}，409-412 
defined (定义 )，408 
dependence pattern for (依赖 模式 )，406，407 
described (描述 ) 404 
effectiveness of (有效 性 ) 412-415 
in hardware synthesis (硬件 综合 )，650 
historical comments and references (历史 评述 与 参考 
文献 ) 466 
legality (合法 性 ) 406-409 
order of transformations and ( 变换 的 顺序 )，454 
pipelined functional unit ( 流水线 功能 部 件 ) 
efficiency and (#7 2c#E), 404-405 
scalar replacement with (标量 替换 )，411-415 
trapezoidal (梯形 的 )，463-465 
triangular (三 角形 的 )，459-463 
typed fusion with 〈 带 类 型 的 合并 )，409，410 
Unroll_And_Jam procedure (Unroll_And_Jamit#), 409 
UnroliLoop procedure ( UnrollLoopit fè), 400 
updateMODwithAlias procedure (updateMODwithAliasyt 
2), 571 
UpdateSlice procedure ( UpdateSlicext #2) 
algorithm (算法 ) 447 
complexity (复杂 性 )，446-448 
correctness (正确 性 )，446 
fast set implementation (快速 集合 实现 )，448 
overview (概述 )，446 
update_SSA_edges procedure (update_SSA_edges 过 程 )， 
164 
update_successors procedure (update_successors 过 程 )， 
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263, 265, 266 
UpdateSuccessors procedure ( UpdateSuccessorsit & ) , 
443 
use analysis, (使 用 分 析 ) 
as flow-sensitive problem (〈 流 敏感 问题 ) 558-559 
as may problem ( 可 能 问题 ) 557 
overview (W£), 554 
as side effect problem (副作用 问题 ) 559 
use problem. See use analysis (使 用 问题 ; 见 使 用 分 析 ) 
use side effect set (使 用 副作用 集 )，554 
uses(b) set (uses(b) 集 )，142，143 


V 


varargs, C language optimization and (varargs，C 语 
言 优化 )，616-617 
variables (变量 ) 
file-static, inC (文件 静态 变量 ，C 语 言 中 )，613 
in hardware synthesis (硬件 综合 )，648-649 
information requirements for dependence testing (依赖 
测试 需要 的 信息 )，138 
live and use analysis (活跃 分 析 和 使 用 分 析 )，553-554 
privatizabie (可 私有 化 的 )，241，242 
run-time symbolic resolution (运行 时 符号 解析 )， 
214-215 
volatile, inC ( 易 变 量 ，C 语 言 中 )，615-616 
vector architectures (向 量 体 系 结构 ) 
compiling for vector pipelines (向 且 流 水 线 的 编译 )， 
12-13 
hardware overview (硬件 概述 )，11-12 
instruction set complications from (指令 集 复杂 性 )，、14 
matrix multiplication and (和 矩阵 乘法 )，24-25 
performance and (性 能 )，1，2 
profitability test for (有 利 性 测试 )，221 
scalarization and (标量 化 )，683 
tying transformations together for (集成 变换 )，222-226 
vector instructions 【 回 量 指令 )，1-13 
chaining (链接 )，11 
compiling for vector pipelines (向 量 流水 线 的 编译 )， 
12-13 ` 
drawbacks of (缺点 )，12 
generating from scalar source program 〈 从 标量 源 程序 
中 产生 )，223 
instruction costs hidden by (隐藏 的 指令 代价 )，536-537 
length of vectors (向 量 长 度 )，12 
scalar instructions from (标量 指令 )}，536 
vector hardware overview (向 量 硬件 概述 )，11-12 
_ See also vector unit scheduling ( 见 向 量 部 件 调 度 ) 
vector operations ( 向量 操作 ) 
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scalarization of single operation ( 单 操作 的 标量 化 )， 
656-660 
in Verilog, 621 
vector registers (向 量 寄存 器 ) 
in Cray 1 (Cray 1), 11 
processor state increase for (增加 处 理 器 状态 ) 12 
vector swap (向 量 交换 ) 
deletable edges ( 可 删除 边 ) 192, 193 
overview (概述 )，184-186 
vector unit scheduling (向 量 部 件 调 度 }，536-542 
case studies (实例 研究 ) 543-546 
chaining vector operations (链接 向 量 操作 )，11，537- 
540 
for coprocessors ( 协 处 理 器 )，540-542 
described (描述 )}，511 
overview (概述 )，543 
vectorization (向 量化 ) 
advanced algorithm for (高 级 算法 )，63-69 
of always blocks (always 块 ) 632-637 
Ardent Titan compiler capabilities (Ardent Titan 编 译 
RED), 232-234 
array renaming for (数组 重 命名 )，198 
breaking conditions for partially vectorizing loops {部 
分 向 量化 循环 的 消除 条 件 )，88-89 
codegen algorithm and (codegen 算 法 )，173 
communication, HPF compilation (通信 ，HPF 编 译 )， 
710-716 
conditional execution and (条 件 执 行 )，230 
dependence and (依赖 )，60-69 
dependence threshold and (依赖 浆 值 ) 209-210 
global view required for (需要 的 全 局 视图 ) 222 
hardware sjmuiation vs. compilers (硬件 模拟 和 编译 
器 ) 632-635 
in hardware synthesis (硬件 综合 ) 647 
iterative dependences and (kH fkih), 344-345 
loop interchange and ( 循环 交换 )，179-184 
loop peeling for (循环 剥离 )，211-212 
Loop Vectorization Theorem (循环 向 量化 定理 ) 62-63 
nonexistent vector operations and (不 存在 的 向 量 操 
作 )，229 
operand reuse and (操作 数 重用 )，229 
performance case study (性 能 实例 分 析 ) 234-236 
PFC capabilities (PFC 能 力 ) 231-232 
prefetch (f), 498, 504 
profitability and (有 利 性 )，221 
scatter-gather operations and ( 分散- 收集 操作 )，228 
simple algorithm for (简单 算法 ) 63 
threshold analysis for ( 国 值 分 析 ) 209-211 
vectorizable loops, defined (可 向 量化 的 循环 ， 定 义 )， 
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vectorizable loops, detecting (可 向 量化 的 循环 ， 删 
除 )，223，224 
vectorize procedure (vectorize 过 程 )，63 
verification ，as hardware-design task (验证 ， 作 为 硬件 
设计 任务 )，618 
Verilog, 619-622 
advantages for optimizers (优化 器 的 优点 )，622 
challenges for optimizers (优化 器 的 挑战 ) 633 
connectivity in (连通 性 ) 620-621 
design size issues with (设计 尺寸 问题 ) 622 
extensions for hardware (硬件 扩展 ) 
description (#38), 619-621 
instantiation in (实例 化 )，621 
loops absent from (没有 循环 ) 622 
Verilog (continued) 
Verilog (2%) 
multivalued logic in (4 {Ai2 #4), 619-620 


nonprocedural continuation semantics in ( 非 过 程 的 持 - 


续 语 义 )，622 
objects in (对 象 )，620 
reactivity in (反应 性 )，620 
uses for (用 于 )，621-622 
vector operations in (向 量 操作 )，621 
VHDL, 619 
VLIW (very long instruction word) architectures (VLIW 
( 超 长 指令 字 ) 体系 结构 ) 
advantages of (优点 )，14 
described (描述 )，14 
disadvantages of (缺点 ) 14-15 
instruction scheduling and (指令 调度 )，15-17 512- 
513 
matrix multiplication and (RFR), 25-26 
multiple-issue instructions in (# RAE), 14-15 
VLIW coprocessors (VLIW 协 处 理 器 )，15 
volatile variables, C language optimization and ( 易 变 变 
量 ，C 语 言 优化 )，615-616 


W, X, Y 


wait instructions for coprocessors( 协 处 理 器 的 等 待 指 
Ay), 541-542 
wavefront parallelism method ( 波 前 并 行 性 方法 )，236， 
315 ` 
WB (writeback) (WB( 回 写 ))，5 
weak SIV subscripts (§§SIV Ffr), 84, 85 
weak-crossing SIV subscripts (3936 MSIV Fr), 86-87 
defined (#2), 85 
dependence test (依赖 测试 ) 86-87 
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empirical study of tests (出 试 的 经 验 研 究 ) 121-123 
geometric view (几何 视图 ) ，86 
locating the crossing point (定位 交叉 点 )，86 
loop splitting (循环 分 裂 )，87 
weak-zero SIV subscripts (33-0 SIV FR), 84-86 
breaking conditions ( 消除 条 件 )，92-93 
defined (定义 )，84 
dependence test ( 依赖 测试 ) 84-86 
empirical study of tests (测试 的 经 验 研 究 )，121-123 
geometric view (几何 视图 )，85 
loop splitting and ( 循环 分 裂 )，212 
peeling first and last iterations (HIB A—S ARE 
个 迭 带 )，85-86 
weight function of acyclic mixed-directed graphs (无 环 混 
合 有 向 图 的 加 权 国 数 )，437-438 
weighted loop fusion algorithm (加 权 的 循环 合并 算法 )， 
434-450 
chaining vector operations and (链接 向 量 操 作 )，538- 
540 
fast greedy weighted fusion (快速 贫 禁 加 权 合 并 )， 
438-450 
one-level fusion (— BAF), 435-436 
weighted fusion problem (加 权 合 并 问题 ) 436-438 
见 fast greedy weighted fusion 
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